| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- BLaST
- 자바
- 생명정보학
- 블록체인
- CNN
- 오류역전파
- 인공지능
- 인공지능 수학
- AP Computer Science A
- 결정트리
- MERS
- 인공신경망
- 바이오파이썬
- Kaggle
- RNN
- AP
- HMM
- 이항분포
- 서열정렬
- bioinformatics
- 생물정보학
- 시그모이드
- SVM
- 파이썬
- 딥러닝
- ncbi
- 바이오인포매틱스
- COVID
- Java
- 캐글
- Today
- Total
데이터 과학
COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 ) 본문
2019년부터 유행하기 시작했던 코로나 바이러스 (COVID19)는 어디에서 왔을까?
라는 주제로 연구를 진행한적이 있다.
이를 증명하려면 유전자 서열을 비교하면 되는데 유전자 서열은 NCBI에서 찾아낼 수 있다.
National Center for Biotechnology Information
UNITE A new NIH initiative to end structural racism and achieve racial equity in the biomedical research enterprise. LEARN MORE
www.ncbi.nlm.nih.gov
NCBI는 미국국립생물공학 정보센터인데 88년부터 만들어졌는데 2000년대 들어서야 포털로서 기능을 갖춘것으로 기억된다. 지금도 UNI-Prot 이외에 가장 많은 서열정보와 논문이 있는 곳으로 유용한 사이트이다.
여기에서 5가지 데이터를 찾아 보도록 하자.
Spike 단백질을 예제로 한다.
하나는 QBM11748.1 (GENBANK ID) 인 MERS
또 하나는 AAR86788.1 - SARS , QHR63290.2 - corona2, AVP78031.1 - Bat, QIA48632.1 - Pangolin

5개 코로나 바이러스를 찾기 귀찮으면 아래 파일을 참고 하면 된다.
NCBI에서 Blast 메뉴를 찾아 클릭한다.
https://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST: Basic Local Alignment Search Tool
The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer
blast.ncbi.nlm.nih.gov
블라스트 페이지에서 Mutilple Aligement를 선택한다.

https://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt.cgi?LINK_LOC=BlastHomeLink
COBALT:Multiple Alignment Tool
0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 [?] Maximum allowed distance between two sequences in a cluster. This threshold prvents COBALT from forming clusters o unrelated sequences. The distance between two sequences is computed as a fraction of words that appea
www.ncbi.nlm.nih.gov
COBALT는 멀티플 정렬 메뉴로 여기서 위 5개의 FASTA 내용을 입력한다.

Align 을 클릭~
결과를 보면 다음과 같다.

공백과 점수화된 서열정렬이 나타난다. (BLOSUM62를 기본)
COBALT 위에 보면 Phylogenetic Tree 메뉴가 있다.
계통수 나무를 한번 보자.

계통수를 보기위해 Phylogenetic Tree을 클릭~

Pangolin이 BAT보다 가까운 결과가 나온다.
Spike 단백질을 놓고 보면 BAT-> Pangolin -> Human으로 이어진 것이 COVID 19의 진행방향이라는 추론이 나온다.
Pangolin이 무엇이냐고 물으신다면.
https://en.wikipedia.org/wiki/Pangolin
Pangolin - Wikipedia
An order of mammals (Pholidota) related to carnivorans Pangolins Living species of pangolins Scientific classification Kingdom: Animalia Phylum: Chordata Class: Mammalia Clade: Ferae Clade: Pholidotamorpha Order: PholidotaWeber, 1904 Subgroups [see classif
en.wikipedia.org
천산갑입니다.
'생명정보학 & 화학정보학 > NCBI와 블라스트' 카테고리의 다른 글
| 바이오인포매틱스 개요 (0) | 2022.08.29 |
|---|---|
| H1N1 시리즈 분석 (0) | 2022.08.01 |
| PAM과 BLOSUM (0) | 2021.11.01 |
| 서열분석 - Needleman Wunsch algorithm (0) | 2021.09.27 |
| 블라스트와 MEGA-X 염기서열 분석 비교 관련 (0) | 2021.06.11 |