전체 글 251

[UST] 분자 구조 예측 모델 만들기 - 2

전에 이어서 이번에는 smiles식 -> fingerprint로 변환하는 작업을 진행했다. 이렇게 변환하는 이유는 단순 smiles식이 string형태로 되어있어 기계학습 모델의 입력으로는 사용하기가 어렵다. 그래서 이 smiles식을 fingerprint로 변환하여 이러한 구조 정보를 컴퓨터가 처리하기 쉬운 이진 벡터형태로 바꿔줘야 한다. 추가로 다양한 크기와 특징들을 지닌 화학 물질들을 일정한 길이의 벡터로 생성되어 통일된 차원의 특성을 가지게 되어 분석에 용이해지기 떄문이다. train_data = pd.read_csv('train_data.csv', index_col=0) test_data = pd.read_csv('test_data.csv', index_col=0) train_data.head(..

[UST] 분자 구조 예측 모델 만들기 - 1

데이터 탐색 UST 인턴동안 첫번째로 진행한 과제는 Daily Dose data에 대해 smiles식을 통해 Dose_MRDD_mmol의 값을 예측하는 과제였다. 우선 예측하는데 쓰일 데이터를 얻기 위해 다음 홈페이지에 들어갔다. (DSSTox (FDAMDD) FDA Maximum (Recommended) Daily Dose Database) https://pubchem.ncbi.nlm.nih.gov/bioassay/1195 💡pubchem이란? 미국 환경보호청(EPA)에서 개발한 분산 구조 검색 가능 독성(DSSTox) 데이터베이스이다. 이 데이터베이스는 화학물질의 잠재적 건강 영향에 대한 정보를 제공함으로써 연구 및 규제 결정을 지원하도록 설계되었고 사용자들은 화학물질의 구조, 이름, 또는 다른 특성..

[UST] nrf2 classification - 3

마지막으로 정확도를 전에 진행했던 방식보다 좀 더 높이고자 neural network를 이용해서 nrf2 classification을 해보았다. 앞서 데이터 전처리 과정이나 분석 부분은 전과 동일하며 classify하는 코드 부분과 다르다. # fingerprint 변환 함수 정의 def convert_fingerprint(data, fingerprint_type): return np.array([list(map(int, list(fp))) for fp in data[fingerprint_type]]) # fingerprint fingerprint_types = ['fingerprint_atompair', 'fingerprint_avalon', 'fingerprint_morgan', 'fingerprin..

[UST] nrf2 classification - 2

nrf2 classification - 1에 이어서 데이터 중 Comment열의 3가지 값이 있다고 했는데 그 중 active열만 분포를 살펴보고 classification을 진행하였다. data_inactive = data[data['Comment'] == 'inactive'] data_active = data[data['Comment'].str.lower() == 'active'] data_inconclusive = data[data['Comment'] == 'inconclusive'] 우선 active열의 데이터에 중복값이 있는지 확인을 했다. data_active['pIC50'].value_counts() 다음과 같이 중복되는값이 많았고 pIC50값은 같으나 smiles식이 다른 데이터들을 확인할..

[UST] nrf2 classification - 1

UST 인턴 중 두번째 과제로 nrf2 데이터를 이용해 binary classification을 진행하였다. 이 classification을 통해 정말 이 약물로 실험을 진행한 결과가 정확한지에 대해서 판단하는 것이었고 roc curve, accuracy, classification report같은 지표를 활용해 검증하는 작업이었다. 💡nrf2란? nrf2 (Nuclear Factor Erythroid 2-Related Factor 2)는 인간을 포함한 여러 생물에서 발견되는 중요한 전사 조절 인자이다. NRF2는 주로 세포의 항산화 반응 및 세포 보호 메커니즘을 조절하는 역할을 한다. 이 단백질은 세포가 다양한 스트레스 요인, 예를 들어 산화적 스트레스, 독성 물질, 중금속과 같은 환경적 도전에 직면했..

안전성평가연구소에서 인턴십 시작

(2024.1.4~2024.2.6) UST 동계 인턴십을 통해 안전성평가연구소에서 5주간 인턴을 하게 되었다. 지원하게 된 계기는 난 원래 컴공출신이지만 예전에 꿈이 과학자였던 터라 과학 쪽에도 어느정도 관심이 있었고 꾸준히 유튜브나 다른 자료들을 보면서 조금씩 상식을 쌓아가고 있었다. 솔직히 머신러닝이나 관련된 프로젝트들은 학부떄 한거 말고는 따로 한적이 없었으며 독성학 및 화학에 대한 전공지식도 다른 지원자들보다는 부족하다는 생각에 별 기대는 안했었다. 하지만 교수님께서는 제 자소서가 지원자들중에 가장 합리적이고 주제에 대해 딱 알맞게 썼다며 날 뽑으셨다고 했다. 정확한 위치는 한국화학연구원 안에 있는 안전성평가연구소에서 인턴을 하게 되는 것이며 5주간 내가 해야 할 업무는 특정 분자 구조에 대한 분..

WSL2 설치 및 구축

WSL이란 ? Windows 운영체제에서 Linux 환경을 제공하는 서브시스템이다. Windows에서 Linux 명령어와 도구를 직접 실행 가능하다. WSL 버전 WSL 1: 유저 모드 가상화를 사용하는 초기 버전 WSL 2: 하이퍼바이저 기반 가상화를 사용하는 업그레이드 버전 WSL의 장점 개발 환경의 통합: Windows와 Linux 개발 환경 통합 리소스 절약: 가상 머신을 생성하는 것이 아니므로 더 나은 성능과 리소스 절약 효과 편의성: Windows와 Linux 간의 파일 공유가 가능하며, Windows에서 바로 Linux 명령어 실행 가능 WSL을 활용하는 분야 개발자: Windows에서 Linux와 유사한 개발 환경 구축 IT 관리자: 리눅스 서버 운영과 관리에 필요한 도구와 기능 사용 보안..

Docker Jupyter Lab Pyspark 환경 구축

목차 1. Windows Docker 설치 2. jupyter/all-spark-notebook 이미지 다운로드 3. jupyter/all-spark-notebook 실행 4. Docker 데스크탑 버전 실행 5. Jupyter Lab 실행 설치 순서 1. Windows Docker 설치 2. jupyter/all-spark-notebook 이미지 다운로드 3. jupyter/all-spark-notebook 실행 4. Docker 데스크탑 버전 실행 5. Jupyter Lab 실행 Windows Docker 설치 우선 Windows Docker 설치를 위해 다음 링크로 들어가 도커를 다운로드 받는다. 링크 : https://www.docker.com/ Docker: Accelerated Containe..

[SQL 데이터 분석 캠프 실전반] 데이터 분석 캠프 실전반 수강 후기

이 캠프를 수강하게 된 동기는 데이터 분석 능력 향상 및 SQL에 관한 지식을 좀 더 배우고자 수강하게 되었습니다. 이전에도 SQL에 관한 지식을 학교에서도 배웠었고 개인적으로 공부했었지만 , 이 캠프를 통해 실무에서 활용할 수 있는 실력을 갖출 수 있었습니다. 또한 캠프에서는 실제로 쓰이는 데이터와 데이터 분석을 위한 SQL 쿼리 작성, 데이터 조작 및 집계 기능까지 체계적으로 배울 수 있었습니다. 또한, 강사님들의 실시간 1:1, 지속적인 피드백을 통해 더 나은 접근 방식과 사고 방식을 배울 수 있엇습니다. 또한, 여러가지 데이터리안에서 제공하는 코딩 테스트 문제를 풀어보면서 실무에 쓰이는 SQL쿼리문들을 작성하면서 쿼리에 대한 도메인 지식이 향상되었습니다. SQL 지식 뿐만 아니라 데이터 분석을 어..

카테고리 없음 2023.08.31