관리 메뉴

데이터 과학

블라스트와 MEGA-X 염기서열 분석 비교 관련 본문

생명정보학 & 화학정보학/NCBI와 블라스트

블라스트와 MEGA-X 염기서열 분석 비교 관련

티에스윤 2021. 6. 11. 15:37

블라스트에서 나오는 염기서열 비교결과와 Clustal-W에서 나오는 염기서열 비교 결과는 다른데 그 이유는 알고리즘이 다르기 때문이다. 니들만 브뉘쉬 알고리즘과 스미스 워터만 알고리즘의 차이라고 할까. 

 

실험을 할 때 어느 것을 선택해야 하는지는 본인이 결정하면 된다. 

 

 

BLAST_result.fasta
0.03MB

 

코로나 바이러스를 비교한 블라스트 결과

 

 

4_sars_mega.fas
0.03MB

코로나 바이러스를 비교한 Mega-X 에서 CLustal_W 결과 

 

 

이후 실험할 때 window (절삭)에 대한 부분이 있는데 서열비교할 때 너무 긴 서열은 비교하기가 쉽지 않다. 윈도로 잘라서 비교 분석하는게 좋은 방법인데, 여러번 비교해야 편향성에서 자유롭다. 

 

어떻게 윈도로 만들어 내는지도 실험자의 기준이 있어야 한다. 9window로 할지 아니면 17window로 할지 이렇게 잘라낸 파일을 결정트리 형식으로 만들어서 학습시킨 후에 관련된 규칙을 찾아낸다. 

 

결정트리에서 실험 데이터는 다음과 같이 구성한 후 결정트리에서 규칙을 찾아내면 된다. 

 

9window.data
0.07MB
9window.names
0.00MB

 

 

 

 

위와 같은 실험방법도 괜찮은 방법으로 최근에 게재된 페이퍼를 링크를 걸어 본다.

 

실험은 위 내용과는 다른 내용으로 진행했다. 

 

https://link.springer.com/article/10.1186/s13104-021-05561-4