Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- HMM
- SVM
- RNN
- 자바
- 딥러닝
- 생명정보학
- 시그모이드
- Java
- AP
- 서열정렬
- 캐글
- AP Computer Science A
- MERS
- 바이오인포매틱스
- ncbi
- 생물정보학
- CNN
- 결정트리
- 인공지능
- 오류역전파
- BLaST
- 파이썬
- 바이오파이썬
- COVID
- 인공지능 수학
- bioinformatics
- 블록체인
- Kaggle
- 이항분포
- 인공신경망
Archives
- Today
- Total
데이터 과학
SMILES 데이터 만드는 방법 본문
SMILES 데이터 분석을 위한 데이터 제작 방법입니다.
코랩에서 사용하는 방법으로 코랩 데이터를 공유해서 사용하거나 기본 폴더에서 올려서 사용하면 됩니다.
파일 가져온 곳은 pubcehm 입니다.
https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/
https://tsyoon.tistory.com/188

코랩에 RDkit 설치하고 공유폴더 설정한 후에 데이터를 추출하면 됩니다.

추출하는 데이터양이 많으면 시간이 걸립니다.
학습 데이터는 2만개 정도가 적정시간이며 20만개 정도 하려면 좀 더 많은 시간이 필요합니다.
그리고, 파일 저장할때 특수문자가 들어오는 utf 문제가 있습니다.
참고: https://dacon.io/competitions/official/235640/codeshare/1707?page=1&dtype=recent
'생명정보학 & 화학정보학 > RDkit와 SMILES 형식' 카테고리의 다른 글
| Colab 데이터 open 방법 (0) | 2024.01.11 |
|---|---|
| RDkit 사용법 (1) | 2023.10.15 |
| Pubchem과 Chembl 사용법 (4) | 2023.10.14 |
| SMILES 형식 (0) | 2023.10.14 |