Notice
Recent Posts
Recent Comments
Link
관리 메뉴

데이터 과학

RoseTTAFold에 대한 이야기 본문

생명정보학 & 화학정보학/알파폴드와 단백질 구조 예측

RoseTTAFold에 대한 이야기

티에스윤 2026. 5. 24. 21:56

로제타폴드(RoseTTAFold)와 AI 기반 단백질 구조 예측의 혁신

초록

로제타폴드(RoseTTAFold)는 미국 워싱턴대학교 David Baker 연구팀이 개발한 딥러닝 기반 단백질 구조 예측 인공지능 모델이다. 기존 단백질 구조 예측은 X선 결정학, 저온전자현미경(cryo-EM), 핵자기공명(NMR)과 같은 실험 기반 방법에 의존했기 때문에 시간과 비용이 매우 많이 필요했다. 그러나 RoseTTAFold는 단백질의 아미노산 서열만으로 단백질의 3차원 구조를 예측할 수 있도록 설계되었으며, 생명정보학과 인공지능이 융합된 대표적 사례로 평가받고 있다.

RoseTTAFold는 단백질 서열 정보, 잔기 간 거리 정보, 3차원 좌표 정보를 동시에 처리하는 three-track neural network 구조를 도입하여 기존 단백질 구조 예측 정확도를 크게 향상시켰다. 이후 RoseTTAFold는 단순한 단백질 구조 예측을 넘어 단백질-단백질 상호작용 예측, DNA 및 RNA 복합체 예측, 단백질 설계, 신약 개발, 생성형 단백질 디자인 분야로 확장되었다.

본 글에서는 RoseTTAFold의 등장 배경, 구조와 작동 원리, AlphaFold와의 차이점, 실제 단백질 구조 예측 사례, 실제 구현 과정, 활용 분야 및 한계를 종합적으로 분석한다.

 

https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/?utm_source=chatgpt.com

 


단백질 구조 예측과 인공지능의 등장

생명체 내부에서 단백질은 매우 중요한 역할을 수행한다. 효소 작용, 세포 신호 전달, 면역 반응, 물질 운반, DNA 복제 등 거의 모든 생명 현상이 단백질의 구조와 기능에 의존한다. 단백질은 단순한 사슬 형태가 아니라 아미노산 서열이 복잡하게 접히면서 고유한 3차원 구조를 형성하며, 이 구조가 단백질의 기능을 결정한다.

단백질 구조는 일반적으로 다음 단계로 구분된다.

 

구조 단계의미

1차 구조 아미노산 서열
2차 구조 α-helix, β-sheet 등의 국소 구조
3차 구조 전체 단백질의 입체 구조
4차 구조 여러 단백질이 결합한 복합체 구조

 

기존에는 단백질 구조를 알아내기 위해 X선 결정학이나 cryo-EM 같은 실험적 방법이 필요했다. 하지만 이러한 방법은 매우 비싸고 오래 걸리며, 모든 단백질에 적용 가능한 것도 아니었다.

막단백질이나 유연한 단백질은 구조 분석 자체가 매우 어려웠다. 이 때문에 오래전부터 “단백질 서열만으로 구조를 예측할 수는 없을까?”라는 문제가 생명정보학 분야의 핵심 난제로 남아 있었다.

이 문제를 해결하기 위해 등장한 것이 AI 기반 단백질 구조 예측 모델이다. DeepMind의 AlphaFold와 Baker Lab의 RoseTTAFold는 이러한 문제를 해결한 대표적인 사례이며, 생명과학 연구 패러다임 자체를 바꾸었다는 평가를 받고 있다.

 

https://pmc.ncbi.nlm.nih.gov/articles/PMC441606/?utm_source=chatgpt.com

 


RoseTTAFold의 핵심 구조와 작동 원리

RoseTTAFold의 가장 큰 특징은 three-track neural network 구조이다. 기존 AI 모델들은 보통 단백질 서열 정보만을 활용하거나, 거리 정보를 별도로 계산하는 방식이었다. 그러나 RoseTTAFold는 세 가지 정보를 동시에 상호작용시키는 구조를 설계하였다.

 

Track처리 정보역할

1D Track 아미노산 서열 단백질의 기본 특징 및 진화 정보 분석
2D Track residue-residue 관계 잔기 간 거리 및 접촉 관계 예측
3D Track 실제 좌표 정보 최종 입체 구조 생성

 

이 구조의 핵심은 세 정보가 독립적으로 계산되는 것이 아니라 서로 정보를 교환한다는 점이다.

예를 들어 특정 두 아미노산이 진화 과정에서 항상 함께 변화했다면, 이는 구조적으로 서로 가까울 가능성이 높다는 의미가 된다. RoseTTAFold는 이러한 공진화(co-evolution) 정보를 분석하여 어떤 residue들이 공간적으로 가까이 존재할 가능성이 높은 지를 예측한다.

이후 2D distance map이 생성되며, AI는 이를 기반으로 실제 3차원 구조를 형성한다.

예를 들어 다음과 같은 거리 정보가 생성될 수 있다.

 

Residue PairPredicted Distance

Cys3 – Cys40 2.1 Å
Ala20 – Tyr29 5.8 Å
Gly31 – Pro36 7.2 Å

이러한 거리 정보는 단백질 내부에서 어떤 부분이 접히고, 어떤 구조가 형성될지를 결정하는 중요한 단서가 된다.

RoseTTAFold는 이러한 과정을 반복적으로 업데이트하면서 최종적으로 가장 안정적인 3차원 구조를 생성한다.

 

https://deepwiki.com/RosettaCommons/RoseTTAFold/7-example-usage?utm_source=chatgpt.com

 

Example Usage | RosettaCommons/RoseTTAFold | DeepWiki

This page provides concrete examples for using the RoseTTAFold system to predict protein structures. The document walks through the practical steps for running the different prediction pipelines with

deepwiki.com

 

https://www.science.org/doi/10.1126/science.abj8754?utm_source=chatgpt.com

 


AlphaFold와 RoseTTAFold의 차이점

AlphaFold와 RoseTTAFold는 모두 딥러닝 기반 단백질 구조 예측 모델이지만 접근 방식에는 차이가 존재한다.

구분AlphaFold2RoseTTAFold

개발 기관 DeepMind University of Washington
핵심 구조 Evoformer Three-track network
특징 매우 높은 정확도 구조 예측과 설계 확장성
장점 단일 구조 예측 성능 우수 상호작용 예측 및 생성 모델 확장 용이
활용 확장 AlphaFold3 RFdiffusion, RoseTTAFoldNA

 

AlphaFold는 매우 높은 정확도로 유명하지만, RoseTTAFold는 비교적 가볍고 연구자들이 직접 수정 및 확장하기 쉬운 구조를 제공한다는 점에서 큰 장점이 있다.

실제로 RoseTTAFold는 이후 RFdiffusion 같은 생성형 단백질 설계 모델의 기반이 되었으며, 새로운 단백질을 설계하는 분야로 빠르게 발전하였다.


실제 단백질 구조 예측 사례

실제 단백질 구조 예측 과정을 이해하기 위해 Crambin 단백질 구조 예측 사례를 살펴볼 수 있다.

Crambin은 약 46개의 아미노산으로 구성된 매우 작은 식물 단백질이며, 구조가 잘 알려져 있어 AI 모델의 성능 평가에 자주 사용된다.

입력 FASTA 서열은 다음과 같다.

>Crambin
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

 

RoseTTAFold는 먼저 유사 단백질들을 검색하여 다중서열정렬(MSA)을 생성한다.

이 단계에서는 진화적으로 함께 변화한 residue들을 찾는다.

예를 들어 Cys3와 Cys40이 항상 함께 보존된다면, 이는 두 residue가 구조적으로 가까운 위치에 존재할 가능성이 높다는 의미가 된다.

그 다음 단계에서는 residue 간 거리 예측이 이루어진다.

이 과정에서 AI는 다음과 같은 정보를 추론한다.

  • α-helix 형성 여부
  • β-sheet pairing
  • loop 영역
  • 이황화결합(disulfide bond)
  • 단백질 중심부(core) 형성

최종적으로 AI는 실제 3차원 좌표를 생성한다.

예측 결과는 PDB 파일 형태로 출력된다.

ATOM      1  N   THR A   1      17.047  14.099   3.625
ATOM      2  CA  THR A   1      16.967  12.784   4.257
ATOM      3  C   THR A   1      15.685  12.095   3.764
ATOM      4  O   THR A   1      14.640  12.721   3.646

생성된 구조를 PyMOL 또는 ChimeraX로 열면 실제 단백질 구조를 시각적으로 확인할 수 있다.

Crambin 예측 결과에서는 다음과 같은 특징이 관찰된다.

구조 특징설명

α-helix Residue 7–19 부근
β-sheet Residue 24–30 및 34–40
Disulfide bond Cys3 ↔ Cys40
Flexible loop 낮은 confidence score 영역

실제 실험 구조와 비교했을 때 RMSD 값은 약 1.2 Å 수준으로 매우 우수한 정확도를 보인다.

일반적으로 RMSD가 2 Å 이하이면 상당히 정확한 구조 예측으로 평가된다.


실제 구현 환경과 실행 방법

실제 연구 환경에서는 RoseTTAFold를 서버나 GPU 환경에서 실행한다.

대표적인 구현 방법은 두 가지이다.

  1. Robetta 웹 서버 사용
  2. 로컬 GPU 환경 구축

초보자나 교육 목적이라면 Robetta 서버를 사용하는 방식이 가장 쉽다.

사용자는 FASTA 파일만 업로드하면 AI가 자동으로 구조를 예측해 준다.

로컬 환경에서는 다음과 같은 방식으로 실행할 수 있다.

git clone https://github.com/RosettaCommons/RoseTTAFold.git
cd RoseTTAFold
bash run_e2e_ver.sh inputs/crambin.fasta outputs/crambin

이 과정에서 필요한 주요 요소는 다음과 같다.

요소역할

GPU 딥러닝 계산 수행
MSA database 유사 단백질 검색
PyTorch 딥러닝 프레임워크
HHblits 서열 검색
PyMOL 결과 시각화

실제 구조 예측에는 상당한 메모리와 GPU 연산량이 필요하며, 특히 MSA 생성 단계에서 CPU와 저장공간 사용량이 매우 크다.


RoseTTAFold의 활용 분야

RoseTTAFold는 단순한 단백질 구조 예측을 넘어 다양한 분야에서 활용되고 있다.

신약 개발 분야에서는 약물이 결합할 수 있는 단백질의 binding pocket을 분석할 수 있다.

효소 공학에서는 특정 residue를 변형하여 효소 활성을 개선하는 연구가 가능하다.

합성생물학에서는 기존 자연계에 존재하지 않는 새로운 단백질을 설계할 수 있다.

RFdiffusion은 RoseTTAFold 기반 생성형 모델로서 새로운 단백질 backbone을 생성할 수 있으며, 이는 생성형 AI가 생명과학 분야에 적용되는 대표적 사례로 평가된다.

RoseTTAFoldNA와 RoseTTAFold All-Atom은 단백질뿐 아니라 DNA, RNA, 금속 이온, 소분자 약물까지 포함한 복합체 구조를 예측할 수 있도록 발전하였다.

이는 향후 신약 개발과 맞춤형 단백질 설계 분야에서 매우 중요한 기술이 될 가능성이 높다.

 

RoseTTAFoldNA

RoseTTAFoldNA는 단백질뿐 아니라 DNA, RNA와 결합한 복합체 구조를 예측하기 위해 확장된 모델이다. Nature Methods 논문은 단백질-핵산 복합체 구조 예측이 아직 어려운 문제였으며, RoseTTAFold 접근을 확장해 단백질-RNA 및 단백질-DNA 복합체 예측에 적용했다고 설명한다.

 

https://www.nature.com/articles/s41592-023-02086-5?utm_source=chatgpt.com

 

RoseTTAFold All-Atom

RoseTTAFold All-Atom, 즉 RFAA는 단백질만이 아니라 핵산, 소분자, 금속 이온, 공유결합 변형까지 포함하는 생체분자 복합체를 모델링할 수 있도록 확장된 모델이다. Science 2024 논문은 RFAA가 아미노산과 DNA 염기는 residue-level 표현으로, 그 외 분자는 atomic-level 표현으로 다루어 복합 생체분자 구조를 예측한다고 설명한다.

 

https://www.science.org/doi/10.1126/science.adl2528?utm_source=chatgpt.com

 

RFdiffusion

RFdiffusion은 RoseTTAFold를 기반으로 한 생성형 단백질 설계 모델이다. 기존 RoseTTAFold가 “주어진 서열의 구조를 예측”하는 데 초점이 있었다면, RFdiffusion은 “원하는 기능이나 결합 조건을 만족하는 새로운 단백질 구조를 생성”하는 방향으로 발전했다. Nature 2023 논문은 RoseTTAFold 구조 예측 네트워크를 denoising task에 맞게 조정하여 단백질 backbone 생성, binder design, symmetric oligomer design, enzyme active site scaffolding 등에 활용했다고 보고했다.

 

https://www.nature.com/articles/s41586-023-06415-8?utm_source=chatgpt.com

 


RoseTTAFold의 한계와 미래

RoseTTAFold는 매우 강력한 AI 모델이지만 완벽한 기술은 아니다.

가장 큰 한계는 실제 생체 환경의 동적 변화를 완전히 반영하지 못한다는 점이다.

단백질은 세포 내부에서 끊임없이 움직이며, pH, 이온 농도, 온도, 주변 단백질 등의 영향을 받는다.

그러나, 현재 AI 구조 예측 모델은 대부분 정적인 구조(static structure)를 예측한다.

intrinsically disordered protein(IDP)처럼 구조가 유동적인 단백질은 정확한 예측이 어렵다.

약물 결합이나 효소 반응처럼 매우 정밀한 화학적 상호작용 역시 추가적인 분자동역학 시뮬레이션과 실험 검증이 필요하다.

그럼에도 불구하고 RoseTTAFold는 생명과학 연구 속도를 획기적으로 향상했으며, 앞으로 생성형 생물학(generative biology)과 AI 기반 신약 개발 분야의 핵심 기술로 발전할 가능성이 높다.


결론

RoseTTAFold는 인공지능과 생명정보학이 융합된 대표적 기술로서 단백질 구조 예측 분야에 혁신을 가져왔다.

특히 three-track neural network 구조를 통해 아미노산 서열, residue 간 거리, 3차원 좌표 정보를 동시에 학습함으로써 매우 높은 정확도의 구조 예측을 가능하게 했다.

이후 RoseTTAFold는 RFdiffusion, RoseTTAFoldNA, RoseTTAFold All-Atom 등으로 발전하면서 단순 구조 예측을 넘어 생성형 단백질 설계와 생체분자 복합체 모델링 분야까지 확장되었다.

현재 RoseTTAFold는 신약 개발, 효소 공학, 합성생물학, 바이오센서 설계, 생명정보학 교육 등 다양한 분야에서 핵심 AI 기술로 활용되고 있으며, 미래 생명과학 연구의 중요한 기반 기술로 자리 잡고 있다.


참고문헌

  1. Baek, M. et al. “Accurate prediction of protein structures and interactions using a three-track neural network.” Science, 2021.
  2. Krishna, R. et al. “Generalized biomolecular modeling and design with RoseTTAFold All-Atom.” Science, 2024.
  3. Watson, J. L. et al. “De novo design of protein structure and function with RFdiffusion.” Nature, 2023.
  4. Baek, M. et al. “Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA.” Nature Methods, 2024.
  5. Kim, D. E. et al. “Protein structure prediction and analysis using the Robetta server.” Nucleic Acids Research, 2004.
  6. Baker Lab, University of Washington. “RoseTTAFold: Accurate protein structure prediction accessible to all.” 2021.
  7. Baker Lab. “Modeling and generating more of life’s building blocks.” 2024.