데이터 과학

Pubchem과 Chembl 사용법 본문

생명정보학 & 화학정보학/RDkit와 SMILES 형식

Pubchem과 Chembl 사용법

티에스윤 2023. 10. 14. 22:21

세계 최대의 화학정보 사이트인 pubchem에 대한 안내입니다. 가장 많은 DB를 가지고 있으며 화학식과 구조식부터 물리적 특성, 생화학적 내용까지 포함되어 있는 사이트입니다. NCBI의 서브사이트로 방대한 DB를 가지고 있습니다. 

 

여러가지 파일 형식을 지원하며 그중에서 SDF형식을 지원하며, 화학식을 그리면 그에 비슷한 데이터를 찾기도 합니다.

 

https://pubchem.ncbi.nlm.nih.gov/

 

PubChem

PubChem is the world's largest collection of freely accessible chemical information. Search chemicals by name, molecular formula, structure, and other identifiers. Find chemical and physical properties, biological activities, safety and toxicity informatio

pubchem.ncbi.nlm.nih.gov

 

사이트에 접속해 보면 

 

 

 

Draw Structure 메뉴를 클릭해 봅시다. 

 

 

 

그림판이 나타나는데 블로그 https://tsyoon.tistory.com/178 에 있는 아세트아미노펜을 비슷하게 그려봅시다. 

 

 

 

 

도형 하나 그려 넣는데 힘드네요. 선을 하나몇 개 더 연결하면 아세트아미노펜이 만들어 질 것 같은데, 그림이 쉽지는 않네요. 그냥 SMILES 형식을 입력해 봅시다. CC(=O)NC1=CC=C(C=C1)O 입니다. 

 

 

 

SMILES로 입력을 하니 분자식 그림이 나타나네요. 

search for this Structure 버튼을 눌러봅시다. 

 

 

 

일치되는 분자식이 1개가 있네요. SMILES에 대한 내용도 나오고 있고요. 

 

 

 

 

구조식을 보면 2차원, 3차원 그림까지 나타나 있습니다. 

7번 Drug information을 누르면 다음과 같은 설명이 있네요. 

 

In general, acetaminophen is used for the treatment of mild to moderate pain and reduction of fever. It is available over the counter in various forms, the most common being oral forms. Acetaminophen _injection_ is indicated for the management of mild to moderate pain, the management of moderate to severe pain with adjunctive opioid analgesics, and the reduction of fever. Because of its low risk of causing allergic reactions, this drug can be administered in patients who are intolerant to salicylates and those with allergic tendencies, including bronchial asthmatics. Specific dosing guidelines should be followed when administering acetaminophen to children.

 

 

13번은 Toxicity에 대한 내용이 있는데 타이레놀에 대한 내용이 나오네요. 우리가 확인할 것은 약물 내용도 중요하지만, 분자식입니다. 

 

그리고, 다시 메인으로 돌아가서 COVID-19를 입력해 봅시다. 

 

 

여기서 remdesivir 를 입력하면 COVID-19 관련 약물이 검색됩니다. 아래 약물정보학 사이트에 나와 있는 분자식과 비교해 보면 차이점이 어디에 있는지 확인할 수 있습니다. 

약물 분석할때도 분자 구조식을 확인할 때도 사용하는 사이트가 pubchem입니다. 

 

https://www.health.kr/Menu.PharmReview/_uploadfiles/%EB%A0%98%EB%8D%B0%EC%8B%9C%EB%B9%84%EB%A5%B4(remdesivir).pdf

 

 

https://pubchem.ncbi.nlm.nih.gov/compound/121304016

 

Remdesivir

 

pubchem.ncbi.nlm.nih.gov

 

 

그리고, chEMBL DB입니다. NCBI는 미국 서버에서 ebi는 영국 서버를 기반으로 작동되기에 기능은 비슷합니다. chEMBL은 ebi 서브 사이트입니다. 데이터 업데이트가 좀 빠르다는 장점이 있으며 사용방법은 pubchem과 비슷합니다. 

 

 

https://www.ebi.ac.uk/chembl/

 

ChEMBL Database

A manually curated database of bioactive molecules with drug-like properties

www.ebi.ac.uk

 

https://bdsl.jbnu.ac.kr/blog/chembl-database/

 

ChEMBL database - Biomedical Data Science Laboratory

Introduction ChEMBL은 생리활성분자(bioactive molecules) 데이터베이스로, 화합물(chemical), 생리활성(bioactivity), 유전정보(genomic data)를 종합한 데이터베이스이다. 2023년 8월 기준, 240만개의 화합물, 160만개

bdsl.jbnu.ac.kr

 

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5836943/

 

Generative Recurrent Networks for De Novo Drug Design

Generative artificial intelligence models present a fresh approach to chemogenomics and de novo drug design, as they provide researchers with the ability to narrow down their search of the chemical space and focus on regions of interest. We present a ...

www.ncbi.nlm.nih.gov

 

'생명정보학 & 화학정보학 > RDkit와 SMILES 형식' 카테고리의 다른 글

SMILES 데이터 만드는 방법  (0) 2024.01.14
Colab 데이터 open 방법  (0) 2024.01.11
RDkit 사용법  (1) 2023.10.15
SMILES 형식  (0) 2023.10.14