Notice
Recent Posts
Recent Comments
Link
관리 메뉴

데이터 과학

알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측 본문

생명정보학 & 화학정보학/알파폴드와 단백질 구조 예측

알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측

티에스윤 2025. 10. 23. 16:48

 

1. 개요

이 문서는 Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2)의 스파이크 단백질(QHR63290.2, Spike glycoprotein)에 대해 AlphaFold2/ColabFold를 활용하여 구조를 예측하는 절차와 해석 방법을 정리한 것입니다. 스파이크 단백질은 바이러스가 인간 세포의 ACE2 수용체에 결합하여 감염을 시작하는 핵심 단백질입니다.

 

2. 서열 정보 (입력 데이터)

 

>QHR63290.2 spike glycoprotein [Severe acute respiratory syndrome coronavirus 2] MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHV SGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPF LGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPI NLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYN ENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASV YAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIAD YNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYF PLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFL PFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLT PTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLG AENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGI AVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDC LGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIG VTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDI LSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLM SFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQRNFYEPQIITTDNT FVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVA KNLNESLIDLQELGKYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDD SEPVLKGVKLHYT

 

 

https://tsyoon.tistory.com/4

 

COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 )

2019년부터 유행하기 시작했던 코로나 바이러스 (COVID19)는 어디에서 왔을까? 라는 주제로 연구를 진행한적이 있다. 이를 증명하려면 유전자 서열을 비교하면 되는데 유전자 서열은 NCBI에서 찾아

tsyoon.tistory.com

 

3. ColabFold를 통한 구조 예측 절차

(1) ColabFold 노트북 열기

(2) 입력 설정

  • Protein sequence: 위 FASTA 서열 전체를 붙여넣습니다.
  • Use templates: On (스파이크처럼 긴 막단백질은 템플릿 사용이 효율적임)
  • MSA generation: 기본값 유지 (mmseqs2)
  • Model type: monomer 또는 multimer (homooligomer 3) 선택
    → 스파이크는 3량체이므로 multimer 설정이 더 생리학적임

(3) 실행 및 결과

  • ColabFold가 MSA 수집 → 구조 예측 → Refine 단계를 자동 수행합니다.
  • 출력 파일:
    • ranked_0.pdb: 가장 높은 신뢰도의 구조 파일
    • plddt.png: 잔기별 신뢰도 그래프
    • pae.png: 잔기쌍 예측 오차행렬(접촉 신뢰도 시각화)

 

4. 결과 해석 방법

(1) pLDDT (Predicted Local Distance Difference Test)

  • 잔기 단위 신뢰도 지표 (0~100)
  • 90 이상: 매우 신뢰도 높음 (core, helices)
  • 70~90: 비교적 안정 (loop, flexible region)
  • 70 미만: 불확실하거나 무질서한 영역

(2) 스파이크 단백질의 예상 신뢰도 분포

영역 주요 기능 예상 신뢰도(pLDDT)

Signal peptide (~13aa) 분비 시그널 낮음
NTD (14–305) 항원 결정 루프 중간
RBD (319–541) ACE2 결합 부위 중간~높음
S1/S2 경계 (681–685) 퓨린 절단 부위 낮음
S2 core (686–1200) 융합 핵심, HR1/HR2 높음
TM helix (~1213–1237) 막관통 부위 높음
Cytoplasmic tail (~1238–1273) 세포질 루프 낮음

 

 

(3) PAE (Predicted Aligned Error)

  • 두 잔기 간 거리 예측의 불확실성을 시각화
  • RBD 루프 등 이동성이 큰 부위에서 값이 높게 나타남

 

5. 실험 구조와 비교

  • PDB의 Cryo-EM 구조 (예: 6VSB, 7A94, 7BNN)와 비교 가능
  • AlphaFold 예측은 주로 단일 서열 기반 접힘을 나타내며, 글리칸 및 삼량체 간 상호작용은 포함되지 않음.

 

6. 시각화 방법 (PyMOL 또는 ChimeraX)

  1. ranked_0.pdb 파일을 다운로드합니다.
  2. PyMOL에서 File → Open으로 열기
  3. spectrum b, blue_white_red, minimum=50, maximum=100 명령으로 pLDDT에 따라 색상 표시
    • 빨강: 신뢰도 낮음 / 파랑: 신뢰도 높음

 

7. AlphaFold DB 활용

  • 이미 예측된 동일 단백질 구조: https://alphafold.ebi.ac.uk/entry/P0DTC2
  • AlphaFold DB는 UniProt의 모든 주요 단백질 구조를 포함하며, SARS-CoV-2 스파이크의 예측 결과도 포함됨.

 

8. 참고 문헌 및 인용

  • Jumper et al., Nature (2021), "Highly accurate protein structure prediction with AlphaFold."
  • Tunyasuvunakool et al., Nature (2021), "Highly accurate protein structure prediction for the human proteome."
  • DeepMind & EMBL-EBI, AlphaFold Protein Structure Database (https://alphafold.ebi.ac.uk/)

 

9. 요약

QHR63290.2 스파이크 단백질의 서열을 AlphaFold2 기반 ColabFold에서 예측하는 구체적 절차와 해석 방법을 안내합니다. ColabFold는 MSA, 템플릿, 다량체 예측 기능을 포함하여 신속하고 효율적인 구조 예측을 수행합니다. pLDDT를 통해 예측 신뢰도를 정량화하고, PyMOL을 통해 구조 시각화가 가능합니다.

AlphaFold DB의 P0DTC2 구조를 직접 확인하여 비교 분석하는 것이 권장됩니다.