일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 블록체인
- BLaST
- 서열정렬
- 행렬
- Java
- 알파폴드
- CNN
- 캐글
- 자바
- 인공지능 수학
- 바이오인포매틱스
- 이항분포
- 인공신경망
- Kaggle
- 결정트리
- bioinformatics
- COVID
- 바이오파이썬
- ncbi
- 파이썬
- AP
- 생물정보학
- MERS
- 시그모이드
- 오류역전파
- 인공지능
- 생명정보학
- 딥러닝
- SVM
- AP Computer Science A
- Today
- Total
데이터 과학
H1N1 시리즈 분석 본문
Influenza A virus subtype, H1N1은 스페인 독감으로 잘 알려져 있는 질병인데 돼지독감이라고도 하고, 신종플루라고도 불리는 감염성 질병입니다.
아형이 워낙 많아 그 종류를 다 헤아리기 어려울 정도인데 생명정보학 분석 할 때 가장 많은 예제를 통해 서로 간의 유사성을 분석하고 공부하는데 좋은 예제입니다.
COVID-19가 잠잠해지면 또 다시 유행하겠죠.
https://ko.wikipedia.org/wiki/H1N1
H1N1 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. A형 인플루엔자 바이러스 H1N1 아형(의학: Influenza A virus subtype, H1N1) 또는 H1N1는 인플루엔자 A의 아형으로, 사람에게 발병하는 인플루엔자에서 가장 흔한 유형이
ko.wikipedia.org
NCBI에 가면 시리즈별로 여러서열이 있는데 헤마글루티닌과 뉴라미니다아제(neuraminidase)로 구성되어 있는데 생각보다 변이가 그리 심하지는 않습니다.
파일 2개를 올려놨는데 하나는 헤마글루티닌이고 하나는 뉴라미니다아제(neuraminidase)입니다.
우선 헤마글루티닌 FASTA 형식으로 되어 있는 것을 BLAST에서 한번 실행해 보면 다음과 같은 결과가 나옵니다.
간단한 계통수로 헤마글루티닌의 성격을 분류해 본 것입니다.
각각의 Hn의 성격에 따라 어느 정도 유사성이 그래픽으로 간단히 확인이 됩니다.
플루 계열들은 변이가 그렇게 심하지는 않아서 일치성(identity)가 상당히 높게 나오기 때문에 어느 바이러스가 유사성이 높은지 눈으로 확인하기가 어렵습니다.
아미노산 서열을 놓고 봐도 차이점이 어느 부분에서 다른지 찾기 힘들정도로 같은 부분이 많이 나타나고 있습니다.
같은 헤마글루티닌에서도 이렇게 서열의 일치성과 불일치성이 나타나고 있습니다.
이를 다시 MEGA-X에서 실행을 해도 비슷한 계통수와 서열 분석 결과가 나타날 것입니다.
이렇게 하면 바이러스들의 위치에 어떤 아미노산이 달라지고 있고, 어떤 아미노산의 빈도수는 높은지가 나타나겠죠.
이를 토대로 유의미한 결과를 찾아봐야 합니다.
위에 그림은 MEGA-X에서 헤마글루티닌 FASTA 형식 예제를 불러와서 Align by ClustalW를 실행한 후 결과입니다.
공백도 있고, 서열도 아미노산들끼지 맞는 것끼리 정렬이 되어 있습니다.
MEGA-X에서 계통수를 나타낸 결과입니다. 이렇게 하면서 어느 아형들이 서로 아미노산에 대한 유사 관계가 있는지 확인할 수 있습니다.
위에 올려 놓은 뉴라미니다아제 예제도 같은 방법으로 실험을 하면 계통수와 서열을 찾을 수 있습니다.
한번 해 봅시다.
'생명정보학 & 화학정보학 > NCBI와 블라스트' 카테고리의 다른 글
바이러스 분류 (1) | 2022.08.29 |
---|---|
바이오인포매틱스 개요 (0) | 2022.08.29 |
PAM과 BLOSUM (0) | 2021.11.01 |
서열분석 - Needleman Wunsch algorithm (0) | 2021.09.27 |
블라스트와 MEGA-X 염기서열 분석 비교 관련 (0) | 2021.06.11 |