컴공생의 개인공부일지

전체 글 242

TopicGPT: A Prompt-based Topic Modeling Framework

석사 과정중 1학기에 LLM, topic modeling쪽 연구를 진행하다 보니 관심이 많아 다른 topic modeling 논문들을 쭉 찾아보아았다. 그 중에 prompt를 이용하여 topic modeling을 제안한 논문이 있어 읽어보았다. 기존 topic modeling기법들의 한계단어 집합이 bag of words로 표현되고 이런 집합들은 서로 관련이 없는 경우가 있음topic 생성시 중복된 단어가 포함된 경우가 많고 presentation이 명확하지 않음특정 도메인에 맞지 않는 경우가 있음(domain에 특화된 embedding model이 필요함하지만 본 논문에서 제안하는 TopicGPT의 contribution은 다음과 같다.기존 topic modeling에서 해결하지 못했던 text dat..

Paper review 2024.11.24

석사 생활 2달차

대학원 3월에 입학해 현재 2달 좀 넘게 하고 있는데...아직도 모르는게 많다..ㅠㅠ그래도 학술대회 논문 1편 냈으니 만족!

카테고리 없음 2024.05.22

[UST] 분자 구조 예측 모델 만들기 - 2

전에 이어서 이번에는 smiles식 -> fingerprint로 변환하는 작업을 진행했다. 이렇게 변환하는 이유는 단순 smiles식이 string형태로 되어있어 기계학습 모델의 입력으로는 사용하기가 어렵다. 그래서 이 smiles식을 fingerprint로 변환하여 이러한 구조 정보를 컴퓨터가 처리하기 쉬운 이진 벡터형태로 바꿔줘야 한다. 추가로 다양한 크기와 특징들을 지닌 화학 물질들을 일정한 길이의 벡터로 생성되어 통일된 차원의 특성을 가지게 되어 분석에 용이해지기 떄문이다. train_data = pd.read_csv('train_data.csv', index_col=0) test_data = pd.read_csv('test_data.csv', index_col=0) train_data.head(..

2024 동계 UST 인턴 2024.02.02

[UST] 분자 구조 예측 모델 만들기 - 1

데이터 탐색 UST 인턴동안 첫번째로 진행한 과제는 Daily Dose data에 대해 smiles식을 통해 Dose_MRDD_mmol의 값을 예측하는 과제였다. 우선 예측하는데 쓰일 데이터를 얻기 위해 다음 홈페이지에 들어갔다. (DSSTox (FDAMDD) FDA Maximum (Recommended) Daily Dose Database) https://pubchem.ncbi.nlm.nih.gov/bioassay/1195 💡pubchem이란? 미국 환경보호청(EPA)에서 개발한 분산 구조 검색 가능 독성(DSSTox) 데이터베이스이다. 이 데이터베이스는 화학물질의 잠재적 건강 영향에 대한 정보를 제공함으로써 연구 및 규제 결정을 지원하도록 설계되었고 사용자들은 화학물질의 구조, 이름, 또는 다른 특성..

2024 동계 UST 인턴 2024.02.02

[UST] nrf2 classification - 3

마지막으로 정확도를 전에 진행했던 방식보다 좀 더 높이고자 neural network를 이용해서 nrf2 classification을 해보았다. 앞서 데이터 전처리 과정이나 분석 부분은 전과 동일하며 classify하는 코드 부분과 다르다. # fingerprint 변환 함수 정의 def convert_fingerprint(data, fingerprint_type): return np.array([list(map(int, list(fp))) for fp in data[fingerprint_type]]) # fingerprint fingerprint_types = ['fingerprint_atompair', 'fingerprint_avalon', 'fingerprint_morgan', 'fingerprin..

2024 동계 UST 인턴 2024.01.29

[UST] nrf2 classification - 2

nrf2 classification - 1에 이어서 데이터 중 Comment열의 3가지 값이 있다고 했는데 그 중 active열만 분포를 살펴보고 classification을 진행하였다. data_inactive = data[data['Comment'] == 'inactive'] data_active = data[data['Comment'].str.lower() == 'active'] data_inconclusive = data[data['Comment'] == 'inconclusive'] 우선 active열의 데이터에 중복값이 있는지 확인을 했다. data_active['pIC50'].value_counts() 다음과 같이 중복되는값이 많았고 pIC50값은 같으나 smiles식이 다른 데이터들을 확인할..

2024 동계 UST 인턴 2024.01.26

[UST] nrf2 classification - 1

UST 인턴 중 두번째 과제로 nrf2 데이터를 이용해 binary classification을 진행하였다. 이 classification을 통해 정말 이 약물로 실험을 진행한 결과가 정확한지에 대해서 판단하는 것이었고 roc curve, accuracy, classification report같은 지표를 활용해 검증하는 작업이었다. 💡nrf2란? nrf2 (Nuclear Factor Erythroid 2-Related Factor 2)는 인간을 포함한 여러 생물에서 발견되는 중요한 전사 조절 인자이다. NRF2는 주로 세포의 항산화 반응 및 세포 보호 메커니즘을 조절하는 역할을 한다. 이 단백질은 세포가 다양한 스트레스 요인, 예를 들어 산화적 스트레스, 독성 물질, 중금속과 같은 환경적 도전에 직면했..

2024 동계 UST 인턴 2024.01.23

안전성평가연구소에서 인턴십 시작

(2024.1.4~2024.2.6) UST 동계 인턴십을 통해 안전성평가연구소에서 5주간 인턴을 하게 되었다. 지원하게 된 계기는 난 원래 컴공출신이지만 예전에 꿈이 과학자였던 터라 과학 쪽에도 어느정도 관심이 있었고 꾸준히 유튜브나 다른 자료들을 보면서 조금씩 상식을 쌓아가고 있었다. 솔직히 머신러닝이나 관련된 프로젝트들은 학부떄 한거 말고는 따로 한적이 없었으며 독성학 및 화학에 대한 전공지식도 다른 지원자들보다는 부족하다는 생각에 별 기대는 안했었다. 하지만 교수님께서는 제 자소서가 지원자들중에 가장 합리적이고 주제에 대해 딱 알맞게 썼다며 날 뽑으셨다고 했다. 정확한 위치는 한국화학연구원 안에 있는 안전성평가연구소에서 인턴을 하게 되는 것이며 5주간 내가 해야 할 업무는 특정 분자 구조에 대한 분..

2024 동계 UST 인턴 2024.01.12

WSL2 설치 및 구축

WSL이란 ? Windows 운영체제에서 Linux 환경을 제공하는 서브시스템이다. Windows에서 Linux 명령어와 도구를 직접 실행 가능하다. WSL 버전 WSL 1: 유저 모드 가상화를 사용하는 초기 버전 WSL 2: 하이퍼바이저 기반 가상화를 사용하는 업그레이드 버전 WSL의 장점 개발 환경의 통합: Windows와 Linux 개발 환경 통합 리소스 절약: 가상 머신을 생성하는 것이 아니므로 더 나은 성능과 리소스 절약 효과 편의성: Windows와 Linux 간의 파일 공유가 가능하며, Windows에서 바로 Linux 명령어 실행 가능 WSL을 활용하는 분야 개발자: Windows에서 Linux와 유사한 개발 환경 구축 IT 관리자: 리눅스 서버 운영과 관리에 필요한 도구와 기능 사용 보안..

4학년 공부 과정/빅데이터 2023.09.23

Docker Jupyter Lab Pyspark 환경 구축

목차 1. Windows Docker 설치 2. jupyter/all-spark-notebook 이미지 다운로드 3. jupyter/all-spark-notebook 실행 4. Docker 데스크탑 버전 실행 5. Jupyter Lab 실행 설치 순서 1. Windows Docker 설치 2. jupyter/all-spark-notebook 이미지 다운로드 3. jupyter/all-spark-notebook 실행 4. Docker 데스크탑 버전 실행 5. Jupyter Lab 실행 Windows Docker 설치 우선 Windows Docker 설치를 위해 다음 링크로 들어가 도커를 다운로드 받는다. 링크 : https://www.docker.com/ Docker: Accelerated Containe..

4학년 공부 과정/빅데이터 2023.09.23

1 2 3 4 ··· 25

컴공생의 개인공부일지

데이터 분석가가 되기위해

SQL #데이터리안 #데이터 분석 캠프, postgresql #sql, 머신러닝 #크롤링, ADSP #DB, 데이터 #postgresql #sql, sql #postgresql, 토픽모델링 #gpt #llm #topic modeling, 알고리즘, R #통계학 #컴퓨터공학 #ML, pyspark #Jupyter Lab #Docker, wsl2 #docker, 영어 #숙어 #idiom, tableau, postgresql #sql #데이터분석, UST, 파이썬, UST #인턴, 소프트웨어공학, R #통계학 #ML, SQLD #DB,

Today :
Yesterday :

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

전체 글 242

티스토리툴바