Notice
Recent Posts
Recent Comments
Link
관리 메뉴

데이터 과학

알파폴드2의 작동 과정 본문

생명정보학 & 화학정보학/알파폴드와 단백질 구조 예측

알파폴드2의 작동 과정

티에스윤 2025. 10. 23. 12:51

알파폴드2의 작동 과정

 

예를 들어, 세포 내에서 산소를 운반하는 단백질인 헤모글로빈(Hemoglobin)의 구조를 예측한다고 가정합니다.


연구자는 먼저 헤모글로빈의 아미노산 서열(Primary sequence)을 알파폴드2에 입력합니다.

이때 모델은 입력된 서열을 바탕으로, 전 세계의 단백질 데이터베이스에서 "유사한 단백질 서열들을 찾아 다중서열정렬(MSA)"을 생성합니다.


이 MSA에는 사람뿐 아니라 원숭이, 생쥐, 조류 등 다양한 생물에서 발견된 유사 단백질 서열이 함께 포함됩니다.
이러한 정렬을 통해, 예를 들어 45번째 아미노산이 변할 때 98번째 아미노산도 함께 변하는 패턴이 반복적으로 나타난다면, 알파폴드는 이 두 잔기가 공간적으로 서로 가까이 있을 가능성이 높다고 판단합니다.

 

이제 Evoformer 모듈이 작동합니다.
Evoformer는 이러한 진화적 패턴을 분석하여, 헤모글로빈의 각 아미노산이 서로 어떤 관계를 맺고 있는지를 학습합니다.
예를 들어, 히스티딘 잔기가 철 이온(Fe²⁺)과 결합할 가능성이 높은 부위에 위치한다는 사실을, 다른 아미노산들과의 상호작용 패턴을 통해 알아내는 것입니다.

Evoformer는 이러한 잔기 간의 관계를 2차원 행렬 형태로 표현하고, 이를 반복적으로 갱신(recycling)하면서 예측의 정밀도를 점차 높여 갑니다.
이 단계에서는 단백질의 3차원 구조를 직접 계산하지는 않지만, 아미노산들이 서로 얼마나 가까운지, 어떤 방향으로 상호작용하는지를 정량적으로 파악합니다.

 

다음으로, Structure 모듈이 Evoformer에서 얻은 정보를 바탕으로 실제 3차원 구조를 형성합니다.
이 모듈은 Invariant Point Attention (IPA) 기법을 사용하여, 헤모글로빈이 회전하거나 이동하더라도 동일한 구조로 인식되도록 학습합니다.


즉, 단백질이 공간 내 어디에 있든 그 내부 형태는 변하지 않는다는 점을 반영합니다.

이 과정을 통해, 알파폴드는 각 아미노산의 좌표를 계산하고, 사슬 형태로 연결하여입체적인 단백질 모델을 만들어 냅니다.

 

 

 

 

결과적으로 Structure 모듈은 알파폴드가 예측한 헤모글로빈의 알파 나선(α-helix) 구조와
철 이온을 중심으로 한 헴(heme) 결합 부위를 정확하게 재현합니다.
이 구조는 실험적으로 규명된 헤모글로빈의 X선 결정 구조와 거의 일치하게 나타납니다.

 

Evoformer 모듈은 “아미노산 간의 진화적 관계를 학습하는 두뇌” 역할을 하고,Structure 모듈은 “그 정보를 이용해 3차원 형태를 그리는 손”의 역할을 한다고 할 수 있습니다.

 

이 두 모듈의 협력 덕분에 알파폴드는 단백질의 복잡한 접힘 과정을 정밀하게 재현할 수 있게 됩니다.