관리 메뉴

데이터 과학

NCBI 서열 검색후 블라스트 실행 방법 본문

생명정보학 & 화학정보학/바이오파이썬

NCBI 서열 검색후 블라스트 실행 방법

티에스윤 2021. 9. 6. 15:30

NCBI에서 서열을 찾아서 블라스트에서 분석하는 방법에 대해 알아보겠습니다. 

 

서열 검색방법은 NCBI를 접속 한 이후 학명(scientific name)으로 찾아야 합니다. 많이 쓰는 단어로 검색을 해도 되는데 학명으로 찾으면 좀 더 정확히 찾을 수 있습니다.

그리고, 비교 할 범위나 부위 같은 대상이 명확해야 서로 정확한 위치의 서열비교가 가능합니다. 

코로나의 ORF와 메르스의 spike 서열을 비교하면 정확한 비교가 아니겠죠. 

 

 

NCBI 사이트에 접속합시다. 

https://www.ncbi.nlm.nih.gov/

 

National Center for Biotechnology Information

UNITE A new NIH initiative to end structural racism and achieve racial equity in the biomedical research enterprise. LEARN MORE

www.ncbi.nlm.nih.gov

 

검색화면에 "sars spike"를 입력해 봅시다. 

 

검색결과 많은 내용들이 나옵니다. 

 

 

실험을 뉴클레오타이드로 할 것인지, 프로틴으로 할 것인지 결정했으면 해당 카테고리를 선택합니다.

이번 실험은 프로틴으로 진행 할 것입니다. 

 

프로틴을 선택하면 프로틴에 해당되는 서열들이 나타납니다. 

 

 

SARS spike 단백질이 검색된 결과입니다. 

이제 서열을 찾아야 합니다. 

 

FASTA 형식으로 된 파일이 필요하기에 첫번째로 검색된  [SARS coronavirus ShanghaiQXC2] 를 선택합니다.

젠뱅크 번호는 GenBank: AAR86775.1 입니다. 서열은 다음과 같습니다. 

 

>AAR86775.1 spike [SARS coronavirus ShanghaiQXC2] MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFH TINHTFGNPVIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAV SKPMGTQTHTMIFDNAFNCTFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLP SGFNTLKPIFKLPLGINITNFRAILTAFSPAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQ NPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNITNLCPFGEVFNATKFPSVYAWERKKISNCVA DYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPGQTGVIADYNYKLPDDFMGCV LAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLNDYGFYTTTGIG YQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTD SVRDPKTSEILDISPCAFGGVSVITPGTNASSEVAVLYQDVNCTNVSAAIHADQLTPAWRIYSTGNNVFQ TQAGCLIGAEHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNF SISITTEVMPVSMAKTSVDCNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQM YKTPTLKYFGGFNFSQILPDPLKPTKRSFIEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGL TVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKQIANQFN KAISQIQESLTTTSTALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLIT GRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLMSFPQAAPHGVVFLHVTYV PSQERNFTTAPAICHEGKAYFPREGVFVFNGTSWFITQRNFFSPQIITTDNTFVSGNCDVVIGIINNTVY DPLQPELDSFKGELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQ YIKWPWYVWLGFIAGLIAIVMVTILLCCMTSCCSCLKGACSCGSCCKFDEDDSEPVLKGVKLHYT

 

 

 

이제 이 서열을 가지고 블라스트에서 검색한 후 비슷한 서열을 찾을지 아니면 실험재료들을 더 찾아서 블라스트에서 서열 비교실험을 할지 결정해야 합니다. 

 

블라스트를 불러서 비슷한 서열들을 찾아보려면 우측 상단에 있는 "Run Blast"를 선택하면 됩니다. 

 

 

 

블라스트를 실행하면 서열이 자동으로 블라스트 화면에 나타나면서 실행대기 상태가 나옵니다. 

 

 

블라스트는 5개의 메뉴가 있는데 위에 blastp는 프로틴 - 프로틴에 대한 검색입니다. 현재 서열이 프로틴이므로 프로틴을 검색하겠다는 메뉴인 것이죠. 블라스트 메뉴들에 대한 설명은 차후에 다른 링크에서 진행하겠습니다. 

 

 

아래 BLAST 버튼을 누르면 검색이 시작됩니다. 

 

 

 

검색된 결과를 보니 많은 서열들이 검색이 되었습니다. 

 

특이한 점이 있는데 identities 를 보니 99.76%에 YP_009825051.1가 있는데 이 서열은 SARS coronavirus Tor2입니다. 이 바이러스는 최근에 업로드 된 것입니다. 

Accession 메뉴에 있는 YP_009825051.1 가 있는 서열정도들이 나오는데 2020년 11월 바이러스인것이 확인됩니다. 시기적으로 보니 델타 전이 바이러스의 시작전이라고 볼 수 있겠네요. 

 

 

 

 

검색을 했던 과거 SARS인 ShanghaiQXC2와 최근 업로드한 Tor2와의 identities 값이 수치적으로 높다는 것을 알 수 있습니다.

Description을 누르면 서열 결과가 나타납니다. 

 

 

 

상당히 높은 유사성을 가진 서열입니다. 업로드한 Tor2가 ShanghaiQXC2라고 해도 될 정도입니다. 

참고로 ShanghaiQXC2 바이러스는 2004년도에 리스트 된 바이러스입니다. 

 

ShanghaiQXC2

 

이렇게 NCBI에서 블라스트를 이용해 유사한 서열을 가진 바이러스들을 찾아 볼 수 있습니다. 

 

아래쪽으로 내려보면 Bat SARS-like coronavirus가 나오는데 2017년에 밝혀진 염기서열과도 일치성이 높습니다.

박쥐에서 추출된 서열인데도 서열이 비슷한것은 현재 유행하는 펜데믹의 주범이라는 이야기입니다. 

 

 

여러개의 염기서열을 찾아서 실험 비교하는 방법은 아래 링크에 잘 나와 있습니다. 

NCBI에서 검색 후에 Genbank ID로 단백질서열이나 핵산서열을 모아서 블라스트에서 비교하면 됩니다. 

아래 링크를 참고 해 주세요. 

 

 

https://tsyoon.tistory.com/4

 

COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 )

2019년부터 유행하기 시작했던 코로나 바이러스 (COVID19)는 어디에서 왔을까? 라는 주제로 연구를 진행한적이 있다. 이를 증명하려면 유전자 서열을 비교하면 되는데 유전자 서열은 NCBI에서 찾아

tsyoon.tistory.com