일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 시그모이드
- BLaST
- 결정트리
- 인공지능 수학
- COVID
- bioinformatics
- 자바
- ncbi
- 인공신경망
- AP
- AP Computer Science A
- 캐글
- Kaggle
- 알파폴드
- CNN
- SVM
- 바이오인포매틱스
- 이항분포
- 오류역전파
- 딥러닝
- 블록체인
- 인공지능
- 파이썬
- 행렬
- 서열정렬
- 생명정보학
- 생물정보학
- 바이오파이썬
- MERS
- Java
- Today
- Total
데이터 과학
SMILES 형식 본문
Simplified Molecular Input Line Entry System의 약자로 SMILES 형식을 사용합니다.
1987년 포모나 대학에서 발표한 논문(Introduction to Methodology and Encoding Rules DAVID WEININGER Medicinal Chemistry Project, Pomona College, Claremont, California 91 7 11 Received June 17, 1987)에서 SMILES 형식에 대한 내용이 있습니다. 화학식을 1차원 일렬로 구성하여 표현하는 방법으로 화학정보학분야에서 사용되고 있습니다. 뉴멕시코에 있는 Daylight Chemical Information Systems 회사가 개발하여서 현재도 사용하고 있으며 ASCII 문자열을 사용하여 표기합니다.
SMILES를 표기할때는 원자(atom), 결합(bond), 고리(ring), 방향족(aromaticity), 가지(branch)로 구분하여 나눕니다.
원자는 가장기본이 되는 방법으로 원소기호로 나눕니다. 수소는 표기에서 제외하는데 표현이 길어지기에 제외하는 것입니다.
결합은 기호로 표현합니다. 결합이 없을때는 . 으로 단일결합은 '-'으로 이중결합은 '='으로 표기하며, 3중 결합은 '#'으로 4중 결합은 "$"로 표기합니다.
고리는 첫번째 고리를 찾으면 1로 표기합니다.
방향족 결합이 있으면 소문자로 표기합니다.
가지는 괄호 ()를 사용해서 표기합니다.
https://www.ebricmall.com/customer/blog/blogDetail/51
https://pertinency.blogspot.com/2019/01/smiles-simplified-molecular-input-line.html
파이썬 라이브러리를 적용하는 RDkit에서 SMILES형식을 이용하여 구조식을 표현합니다.
타이레놀에 들어가는 아세트아미노펜입니다.
이를 SMILES 형식으로 표현하면 다음과 같습니다.
CC(=O)NC1=CC=C(C=C1)O
간단하게 표기는 형식이지만 많은 내용이 들어가 있는 표기법입니다.
아래 링크에서 SMILES 논문에 대해 해석을 했습니다. 한번 읽어 보고, 다시 한번 정리해 보세요.
https://ang-love-chang.tistory.com/54
[I2S]SMILES란?
또한, Recurrent Neural Network을 활용하여 분자구조를 문자로 변환한 SMILES (Simplified Molecular Input Line Entry System) QSAR에서 분자 구조를 설명 인자로 사용하는 방법은 데이터의 형태에따라서 3가지로구분
ang-love-chang.tistory.com
2020년에 분자구조 이미지 변화 경진대회도 있었습니다.
https://dacon.io/competitions/official/235640/overview/description
분자구조 이미지 SMILES 변환 AI 경진대회 - DACON
분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.
dacon.io
'생명정보학 & 화학정보학 > RDkit와 SMILES 형식' 카테고리의 다른 글
SMILES 데이터 만드는 방법 (0) | 2024.01.14 |
---|---|
Colab 데이터 open 방법 (0) | 2024.01.11 |
RDkit 사용법 (1) | 2023.10.15 |
Pubchem과 Chembl 사용법 (4) | 2023.10.14 |