데이터 과학

SMILES 데이터 만드는 방법 본문

생명정보학 & 화학정보학/RDkit와 SMILES 형식

SMILES 데이터 만드는 방법

티에스윤 2024. 1. 14. 22:56

SMILES 데이터 분석을 위한 데이터 제작 방법입니다. 

 

코랩에서 사용하는 방법으로 코랩 데이터를 공유해서 사용하거나 기본 폴더에서 올려서 사용하면 됩니다. 

 

파일 가져온 곳은 pubcehm 입니다. 

 

https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/

 

https://tsyoon.tistory.com/188

 

 

 

코랩에 RDkit 설치하고  공유폴더 설정한 후에 데이터를 추출하면 됩니다. 

 

 

 

추출하는 데이터양이 많으면 시간이 걸립니다. 

 

학습 데이터는 2만개 정도가 적정시간이며 20만개 정도 하려면 좀 더 많은 시간이 필요합니다. 

 

그리고, 파일 저장할때 특수문자가 들어오는 utf 문제가 있습니다. 

 

 

SMILES.ipynb
0.01MB

 

 

참고:  https://dacon.io/competitions/official/235640/codeshare/1707?page=1&dtype=recent

'생명정보학 & 화학정보학 > RDkit와 SMILES 형식' 카테고리의 다른 글

Colab 데이터 open 방법  (0) 2024.01.11
RDkit 사용법  (1) 2023.10.15
Pubchem과 Chembl 사용법  (4) 2023.10.14
SMILES 형식  (0) 2023.10.14