데이터 과학

COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 ) 본문

생명정보학 & 화학정보학/NCBI와 블라스트

COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 )

티에스윤 2021. 5. 23. 20:49

2019년부터 유행하기 시작했던 코로나 바이러스 (COVID19)는 어디에서 왔을까?

라는 주제로 연구를 진행한적이 있다. 

 

이를 증명하려면 유전자 서열을 비교하면 되는데 유전자 서열은 NCBI에서 찾아낼 수 있다. 

 

https://www.ncbi.nlm.nih.gov/

 

National Center for Biotechnology Information

UNITE A new NIH initiative to end structural racism and achieve racial equity in the biomedical research enterprise. LEARN MORE

www.ncbi.nlm.nih.gov

 

NCBI는 미국국립생물공학 정보센터인데 88년부터 만들어졌는데 2000년대 들어서야 포털로서 기능을 갖춘것으로 기억된다. 지금도 UNI-Prot 이외에 가장 많은 서열정보와 논문이 있는 곳으로 유용한 사이트이다. 

 

여기에서 5가지 데이터를 찾아 보도록 하자. 

Spike 단백질을 예제로 한다. 

 

하나는 QBM11748.1 (GENBANK ID) 인 MERS 

또 하나는 AAR86788.1 -    SARS , QHR63290.2  - corona2,    AVP78031.1 - Bat,  QIA48632.1 - Pangolin

 

SARS를 검색하면 COVID19 서열 정보가 나타난다. 

 

5개 코로나 바이러스를 찾기 귀찮으면 아래 파일을 참고 하면 된다. 

5_corona_spike.fas
0.01MB

 

NCBI에서 Blast 메뉴를 찾아 클릭한다. 

 

https://blast.ncbi.nlm.nih.gov/Blast.cgi

 

BLAST: Basic Local Alignment Search Tool

The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer

blast.ncbi.nlm.nih.gov

 

블라스트 페이지에서 Mutilple Aligement를 선택한다. 

 

 

 

 

https://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt.cgi?LINK_LOC=BlastHomeLink 

 

COBALT:Multiple Alignment Tool

0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 [?] Maximum allowed distance between two sequences in a cluster. This threshold prvents COBALT from forming clusters o unrelated sequences. The distance between two sequences is computed as a fraction of words that appea

www.ncbi.nlm.nih.gov

COBALT는 멀티플 정렬 메뉴로 여기서 위 5개의 FASTA 내용을 입력한다. 

 

Align 을 클릭~

 

결과를 보면 다음과 같다. 

 

5개 spike 단백질 결과 

 

 

공백과 점수화된 서열정렬이 나타난다. (BLOSUM62를 기본)

COBALT 위에 보면 Phylogenetic Tree 메뉴가 있다. 

계통수 나무를 한번 보자. 

 

 

계통수를 보기위해 Phylogenetic Tree을 클릭~

 

계통수가 보면 COVID19와 가까운 것은 Pangolin

 

Pangolin이 BAT보다 가까운 결과가 나온다.

Spike 단백질을 놓고 보면 BAT-> Pangolin -> Human으로 이어진 것이 COVID 19의 진행방향이라는 추론이 나온다. 

 

Pangolin이 무엇이냐고 물으신다면.

 

https://en.wikipedia.org/wiki/Pangolin 

 

Pangolin - Wikipedia

An order of mammals (Pholidota) related to carnivorans Pangolins Living species of pangolins Scientific classification Kingdom: Animalia Phylum: Chordata Class: Mammalia Clade: Ferae Clade: Pholidotamorpha Order: PholidotaWeber, 1904 Subgroups [see classif

en.wikipedia.org

천산갑입니다.