UST 5

[UST] 분자 구조 예측 모델 만들기 - 2

전에 이어서 이번에는 smiles식 -> fingerprint로 변환하는 작업을 진행했다. 이렇게 변환하는 이유는 단순 smiles식이 string형태로 되어있어 기계학습 모델의 입력으로는 사용하기가 어렵다. 그래서 이 smiles식을 fingerprint로 변환하여 이러한 구조 정보를 컴퓨터가 처리하기 쉬운 이진 벡터형태로 바꿔줘야 한다. 추가로 다양한 크기와 특징들을 지닌 화학 물질들을 일정한 길이의 벡터로 생성되어 통일된 차원의 특성을 가지게 되어 분석에 용이해지기 떄문이다. train_data = pd.read_csv('train_data.csv', index_col=0) test_data = pd.read_csv('test_data.csv', index_col=0) train_data.head(..

[UST] 분자 구조 예측 모델 만들기 - 1

데이터 탐색 UST 인턴동안 첫번째로 진행한 과제는 Daily Dose data에 대해 smiles식을 통해 Dose_MRDD_mmol의 값을 예측하는 과제였다. 우선 예측하는데 쓰일 데이터를 얻기 위해 다음 홈페이지에 들어갔다. (DSSTox (FDAMDD) FDA Maximum (Recommended) Daily Dose Database) https://pubchem.ncbi.nlm.nih.gov/bioassay/1195 💡pubchem이란? 미국 환경보호청(EPA)에서 개발한 분산 구조 검색 가능 독성(DSSTox) 데이터베이스이다. 이 데이터베이스는 화학물질의 잠재적 건강 영향에 대한 정보를 제공함으로써 연구 및 규제 결정을 지원하도록 설계되었고 사용자들은 화학물질의 구조, 이름, 또는 다른 특성..

[UST] nrf2 classification - 3

마지막으로 정확도를 전에 진행했던 방식보다 좀 더 높이고자 neural network를 이용해서 nrf2 classification을 해보았다. 앞서 데이터 전처리 과정이나 분석 부분은 전과 동일하며 classify하는 코드 부분과 다르다. # fingerprint 변환 함수 정의 def convert_fingerprint(data, fingerprint_type): return np.array([list(map(int, list(fp))) for fp in data[fingerprint_type]]) # fingerprint fingerprint_types = ['fingerprint_atompair', 'fingerprint_avalon', 'fingerprint_morgan', 'fingerprin..

[UST] nrf2 classification - 2

nrf2 classification - 1에 이어서 데이터 중 Comment열의 3가지 값이 있다고 했는데 그 중 active열만 분포를 살펴보고 classification을 진행하였다. data_inactive = data[data['Comment'] == 'inactive'] data_active = data[data['Comment'].str.lower() == 'active'] data_inconclusive = data[data['Comment'] == 'inconclusive'] 우선 active열의 데이터에 중복값이 있는지 확인을 했다. data_active['pIC50'].value_counts() 다음과 같이 중복되는값이 많았고 pIC50값은 같으나 smiles식이 다른 데이터들을 확인할..

[UST] nrf2 classification - 1

UST 인턴 중 두번째 과제로 nrf2 데이터를 이용해 binary classification을 진행하였다. 이 classification을 통해 정말 이 약물로 실험을 진행한 결과가 정확한지에 대해서 판단하는 것이었고 roc curve, accuracy, classification report같은 지표를 활용해 검증하는 작업이었다. 💡nrf2란? nrf2 (Nuclear Factor Erythroid 2-Related Factor 2)는 인간을 포함한 여러 생물에서 발견되는 중요한 전사 조절 인자이다. NRF2는 주로 세포의 항산화 반응 및 세포 보호 메커니즘을 조절하는 역할을 한다. 이 단백질은 세포가 다양한 스트레스 요인, 예를 들어 산화적 스트레스, 독성 물질, 중금속과 같은 환경적 도전에 직면했..