| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 생물정보학
- 인공지능
- 블록체인
- 서열정렬
- COVID
- 시그모이드
- SVM
- Java
- 생명정보학
- 캐글
- 오류역전파
- CNN
- 바이오파이썬
- 딥러닝
- ncbi
- RNN
- 이항분포
- HMM
- 인공지능 수학
- 파이썬
- bioinformatics
- 인공신경망
- BLaST
- AP
- AP Computer Science A
- Kaggle
- 자바
- MERS
- 결정트리
- 바이오인포매틱스
- Today
- Total
데이터 과학
알파폴드 개요 본문
단백질 구조 예측에서 알파폴드(AlphaFold) 알고리즘은 인공지능이 생명과학의 오랜 난제를 해결한 혁신적인 사례로 평가받습니다. 단백질은 아미노산 서열이 일정한 규칙에 따라 접혀 복잡한 3차원 구조를 형성하고, 그 구조를 통해 생명 현상에서 다양한 기능을 수행합니다. 그러나 아미노산의 1차 서열만으로 단백질의 입체 구조를 정확히 예측하는 것은 매우 어려운 문제였습니다. 단백질을 구성하는 아미노산이 수백 개 이상인 경우 가능한 접힘 형태는 상상할 수 없을 정도로 많기 때문입니다. 기존에는 X선 결정학(X-ray crystallography), 핵자기 공명(NMR), 냉동전자현미경(Cryo-EM)과 같은 실험적 방법으로 구조를 규명했지만, 이 방법들은 비용과 시간이 많이 소요되며 모든 단백질에 적용하기 어렵다는 한계가 있었습니다.
이러한 문제를 해결하기 위해 구글 딥마인드(DeepMind) 연구팀은 인공지능 기반 단백질 구조 예측 모델인 알파폴드를 개발하였습니다. 알파폴드는 2018년 단백질 구조 예측 대회인 CASP13에서 처음 소개되었으며, 2020년 발표된 알파폴드2는 실험 수준의 정확도로 단백질 구조를 예측하여 과학계에 큰 충격을 주었습니다. 기존의 물리적 시뮬레이션이나 에너지 최소화 방식이 아닌, 방대한 서열 데이터와 딥러닝 알고리즘을 결합하여 진화적 패턴을 학습하는 접근 방식을 사용하였기 때문입니다.
알파폴드가 구조를 예측하기 위해 사용하는 입력 정보는 크게 세 가지입니다. 첫째는 단백질의 아미노산 서열, 둘째는 유사한 단백질 서열을 정렬한 다중서열정렬(Multiple Sequence Alignment, MSA), 셋째는 이미 알려진 단백질 구조 데이터를 포함한 템플릿(template) 정보입니다. MSA를 통해 서로 다른 생물 종에서 같은 단백질의 특정 부분이 함께 변하는 경향, 즉 공진화(co-evolution) 정보를 얻을 수 있습니다. 이는 어떤 아미노산 잔기들이 공간적으로 가까이 위치하는지를 추론하는 데 매우 유용한 단서가 됩니다.
알파폴드2의 내부 구조는 크게 두 단계로 구성됩니다. 첫 번째는 Evoformer 모듈이고, 두 번째는 Structure 모듈입니다. Evoformer는 입력된 MSA와 템플릿 정보를 바탕으로 단백질의 각 잔기 간 상호작용을 학습합니다. 이 과정에서 Transformer 구조의 핵심인 self-attention 기법이 사용되어, 각 아미노산이 다른 모든 아미노산과의 관계를 고려하며 특징을 추출합니다. 또한 Evoformer는 외적 평균(Outer Product Mean) 연산을 통해 잔기 쌍의 관계를 2차원 행렬 형태로 변환함으로써, 단백질 내 모든 위치 간의 상호 의존성을 포착합니다. 이 모듈의 또 다른 중요한 특징은 “재활용(recycling)” 과정입니다. 한 번 예측된 구조 결과를 다시 입력으로 사용하여 반복적으로 정교화함으로써 예측의 정확도를 높입니다.
이후 Structure 모듈은 Evoformer에서 생성된 관계 정보를 이용해 단백질의 실제 3차원 좌표를 계산합니다.
이때 Invariant Point Attention (IPA)이라는 기법이 적용되는데, 이는 단백질의 회전이나 이동과 같은 변환에 영향을 받지 않도록 설계된 attention 메커니즘입니다. 즉, 단백질의 절대적 위치가 아니라 잔기들 간의 상대적인 거리와 방향을 학습함으로써, 공간적 일관성을 유지한 채로 구조를 예측합니다. 모델은 이 과정을 여러 번 반복하면서 구조를 점차적으로 개선하고, 최종적으로 안정된 3차원 구조를 도출합니다.
알파폴드는 지도학습(supervised learning) 방식을 통해 학습되었습니다.
실험적으로 규명된 단백질 구조 데이터(PDB)를 정답으로 삼아, 예측된 구조와 실제 구조 간의 차이를 최소화하도록 학습합니다. 손실 함수로는 원자 좌표 간의 평균제곱근오차(RMSD), 거리 행렬의 차이, 그리고 결합 각도 손실 등이 사용됩니다. 이와 같은 정교한 학습 과정을 통해 알파폴드는 단백질 구조의 세밀한 특징까지 반영할 수 있게 되었습니다.
그 결과, 알파폴드는 2020년 CASP14 대회에서 평균 GDT_TS 점수 92.4점을 기록하며 사실상 인간 수준의 정확도를 달성하였습니다. 이후 DeepMind는 알파폴드를 오픈소스로 공개하고, UniProt 데이터베이스에 존재하는 거의 모든 단백질 서열의 구조를 예측하여 전 세계 연구자들에게 제공합니다. 이를 통해 2억 개가 넘는 단백질 구조가 AlphaFold Protein Structure Database를 통해 접근 가능해졌습니다.
이 알고리즘의 등장은 생명과학 전반에 혁명적인 변화를 가져왔습니다. 약물 표적 단백질의 구조를 빠르게 파악하여 신약 개발 속도를 획기적으로 단축할 수 있게 되었으며, 미해결 효소의 작용 기작이나 유전 질환 단백질의 변이 구조를 분석하는 데에도 활용되고 있습니다. 또한 단백질 복합체 예측을 위한 AlphaFold-Multimer, 단백질과 리간드 및 DNA·RNA의 결합까지 예측할 수 있는 AlphaFold3 등으로 확장되며 응용 범위가 지속적으로 확대되고 있습니다.
요약하자면, 알파폴드는 단백질 서열로부터 3차원 구조를 거의 실험 수준으로 예측하는 인공지능 모델로서, 생명정보학과 인공지능의 융합이 만들어낸 가장 강력한 성과 중 하나입니다. 이 알고리즘은 진화적 정보(MSA)와 공간적 제약을 딥러닝으로 통합하여 단백질 접힘 문제를 사실상 해결하였으며, 생명과학 연구의 패러다임을 근본적으로 바꾸어 놓았습니다. 알파폴드는 단백질 구조 예측의 새로운 시대를 열었으며, 앞으로의 생명과학 연구와 의약학 발전에 중요한 기여를 계속할 것으로 기대됩니다.
https://tsyoon.tistory.com/108
단백질 구조 예측 서론과 알파폴드 설치
단백질 구조 예측은 20년 전인 2000년대 초반부터 연구했던 분야입니다. 그 당시에는 일반적인 인공지능 알고리즘으로 분석을 진행했는데, 예측률이 78% 정도에서 예측이 되었습니
tsyoon.tistory.com
'생명정보학 & 화학정보학 > 알파폴드와 단백질 구조 예측' 카테고리의 다른 글
| 알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측 (0) | 2025.10.23 |
|---|---|
| 알파폴드2의 작동 과정 (0) | 2025.10.23 |
| pymol (단백질 구조 뷰어 프로그램) (0) | 2024.10.22 |
| 단백질 구조 예측, CF & GOR 방법 (4) | 2023.09.16 |
| 알파폴드 실습 - 코랩폴드 (2) | 2022.11.14 |