| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 인공지능 수학
- 캐글
- 바이오인포매틱스
- Kaggle
- AP
- 오류역전파
- RNN
- 시그모이드
- MERS
- HMM
- Java
- COVID
- 생물정보학
- 자바
- 인공신경망
- 서열정렬
- 딥러닝
- 결정트리
- 인공지능
- AP Computer Science A
- 이항분포
- CNN
- SVM
- 바이오파이썬
- 파이썬
- bioinformatics
- 블록체인
- ncbi
- 생명정보학
- BLaST
- Today
- Total
데이터 과학
알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측 본문
알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측
티에스윤 2025. 10. 23. 16:481. 개요
이 문서는 Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2)의 스파이크 단백질(QHR63290.2, Spike glycoprotein)에 대해 AlphaFold2/ColabFold를 활용하여 구조를 예측하는 절차와 해석 방법을 정리한 것입니다. 스파이크 단백질은 바이러스가 인간 세포의 ACE2 수용체에 결합하여 감염을 시작하는 핵심 단백질입니다.
2. 서열 정보 (입력 데이터)
>QHR63290.2 spike glycoprotein [Severe acute respiratory syndrome coronavirus 2] MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHV SGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPF LGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPI NLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYN ENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASV YAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIAD YNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYF PLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFL PFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLT PTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLG AENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGI AVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDC LGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIG VTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDI LSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLM SFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQRNFYEPQIITTDNT FVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVA KNLNESLIDLQELGKYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDD SEPVLKGVKLHYT
COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 )
2019년부터 유행하기 시작했던 코로나 바이러스 (COVID19)는 어디에서 왔을까? 라는 주제로 연구를 진행한적이 있다. 이를 증명하려면 유전자 서열을 비교하면 되는데 유전자 서열은 NCBI에서 찾아
tsyoon.tistory.com
3. ColabFold를 통한 구조 예측 절차
(1) ColabFold 노트북 열기
- Colab 링크: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
- 메뉴에서 Runtime → Run all을 클릭하여 모든 셀을 순서대로 실행합니다.
(2) 입력 설정
- Protein sequence: 위 FASTA 서열 전체를 붙여넣습니다.
- Use templates: On (스파이크처럼 긴 막단백질은 템플릿 사용이 효율적임)
- MSA generation: 기본값 유지 (mmseqs2)
- Model type: monomer 또는 multimer (homooligomer 3) 선택
→ 스파이크는 3량체이므로 multimer 설정이 더 생리학적임
(3) 실행 및 결과
- ColabFold가 MSA 수집 → 구조 예측 → Refine 단계를 자동 수행합니다.
- 출력 파일:
- ranked_0.pdb: 가장 높은 신뢰도의 구조 파일
- plddt.png: 잔기별 신뢰도 그래프
- pae.png: 잔기쌍 예측 오차행렬(접촉 신뢰도 시각화)
4. 결과 해석 방법
(1) pLDDT (Predicted Local Distance Difference Test)
- 잔기 단위 신뢰도 지표 (0~100)
- 90 이상: 매우 신뢰도 높음 (core, helices)
- 70~90: 비교적 안정 (loop, flexible region)
- 70 미만: 불확실하거나 무질서한 영역
(2) 스파이크 단백질의 예상 신뢰도 분포
영역 주요 기능 예상 신뢰도(pLDDT)
| Signal peptide (~13aa) | 분비 시그널 | 낮음 |
| NTD (14–305) | 항원 결정 루프 | 중간 |
| RBD (319–541) | ACE2 결합 부위 | 중간~높음 |
| S1/S2 경계 (681–685) | 퓨린 절단 부위 | 낮음 |
| S2 core (686–1200) | 융합 핵심, HR1/HR2 | 높음 |
| TM helix (~1213–1237) | 막관통 부위 | 높음 |
| Cytoplasmic tail (~1238–1273) | 세포질 루프 | 낮음 |
(3) PAE (Predicted Aligned Error)
- 두 잔기 간 거리 예측의 불확실성을 시각화
- RBD 루프 등 이동성이 큰 부위에서 값이 높게 나타남
5. 실험 구조와 비교
- PDB의 Cryo-EM 구조 (예: 6VSB, 7A94, 7BNN)와 비교 가능
- AlphaFold 예측은 주로 단일 서열 기반 접힘을 나타내며, 글리칸 및 삼량체 간 상호작용은 포함되지 않음.
6. 시각화 방법 (PyMOL 또는 ChimeraX)
- ranked_0.pdb 파일을 다운로드합니다.
- PyMOL에서 File → Open으로 열기
- spectrum b, blue_white_red, minimum=50, maximum=100 명령으로 pLDDT에 따라 색상 표시
- 빨강: 신뢰도 낮음 / 파랑: 신뢰도 높음
7. AlphaFold DB 활용
- 이미 예측된 동일 단백질 구조: https://alphafold.ebi.ac.uk/entry/P0DTC2
- AlphaFold DB는 UniProt의 모든 주요 단백질 구조를 포함하며, SARS-CoV-2 스파이크의 예측 결과도 포함됨.
8. 참고 문헌 및 인용
- Jumper et al., Nature (2021), "Highly accurate protein structure prediction with AlphaFold."
- Tunyasuvunakool et al., Nature (2021), "Highly accurate protein structure prediction for the human proteome."
- DeepMind & EMBL-EBI, AlphaFold Protein Structure Database (https://alphafold.ebi.ac.uk/)
9. 요약
QHR63290.2 스파이크 단백질의 서열을 AlphaFold2 기반 ColabFold에서 예측하는 구체적 절차와 해석 방법을 안내합니다. ColabFold는 MSA, 템플릿, 다량체 예측 기능을 포함하여 신속하고 효율적인 구조 예측을 수행합니다. pLDDT를 통해 예측 신뢰도를 정량화하고, PyMOL을 통해 구조 시각화가 가능합니다.
AlphaFold DB의 P0DTC2 구조를 직접 확인하여 비교 분석하는 것이 권장됩니다.
'생명정보학 & 화학정보학 > 알파폴드와 단백질 구조 예측' 카테고리의 다른 글
| RoseTTAFold에 대한 이야기 (0) | 2026.05.24 |
|---|---|
| AlphaFold 3 개요 (3) | 2026.03.20 |
| 알파폴드2의 작동 과정 (0) | 2025.10.23 |
| 알파폴드 개요 (0) | 2025.10.23 |
| pymol (단백질 구조 뷰어 프로그램) (0) | 2024.10.22 |