| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 결정트리
- 인공신경망
- 딥러닝
- AP Computer Science A
- 생물정보학
- 바이오파이썬
- 생명정보학
- HMM
- AP
- MERS
- bioinformatics
- Java
- 인공지능 수학
- 캐글
- 인공지능
- 시그모이드
- 블록체인
- 서열정렬
- SVM
- Kaggle
- 오류역전파
- BLaST
- COVID
- 자바
- CNN
- RNN
- ncbi
- 파이썬
- 이항분포
- 바이오인포매틱스
- Today
- Total
데이터 과학
RoseTTAFold에 대한 이야기 본문
로제타폴드(RoseTTAFold)와 AI 기반 단백질 구조 예측의 혁신
초록
로제타폴드(RoseTTAFold)는 미국 워싱턴대학교 David Baker 연구팀이 개발한 딥러닝 기반 단백질 구조 예측 인공지능 모델이다. 기존 단백질 구조 예측은 X선 결정학, 저온전자현미경(cryo-EM), 핵자기공명(NMR)과 같은 실험 기반 방법에 의존했기 때문에 시간과 비용이 매우 많이 필요했다. 그러나 RoseTTAFold는 단백질의 아미노산 서열만으로 단백질의 3차원 구조를 예측할 수 있도록 설계되었으며, 생명정보학과 인공지능이 융합된 대표적 사례로 평가받고 있다.
RoseTTAFold는 단백질 서열 정보, 잔기 간 거리 정보, 3차원 좌표 정보를 동시에 처리하는 three-track neural network 구조를 도입하여 기존 단백질 구조 예측 정확도를 크게 향상시켰다. 이후 RoseTTAFold는 단순한 단백질 구조 예측을 넘어 단백질-단백질 상호작용 예측, DNA 및 RNA 복합체 예측, 단백질 설계, 신약 개발, 생성형 단백질 디자인 분야로 확장되었다.
본 글에서는 RoseTTAFold의 등장 배경, 구조와 작동 원리, AlphaFold와의 차이점, 실제 단백질 구조 예측 사례, 실제 구현 과정, 활용 분야 및 한계를 종합적으로 분석한다.
단백질 구조 예측과 인공지능의 등장
생명체 내부에서 단백질은 매우 중요한 역할을 수행한다. 효소 작용, 세포 신호 전달, 면역 반응, 물질 운반, DNA 복제 등 거의 모든 생명 현상이 단백질의 구조와 기능에 의존한다. 단백질은 단순한 사슬 형태가 아니라 아미노산 서열이 복잡하게 접히면서 고유한 3차원 구조를 형성하며, 이 구조가 단백질의 기능을 결정한다.
단백질 구조는 일반적으로 다음 단계로 구분된다.
구조 단계의미
| 1차 구조 | 아미노산 서열 |
| 2차 구조 | α-helix, β-sheet 등의 국소 구조 |
| 3차 구조 | 전체 단백질의 입체 구조 |
| 4차 구조 | 여러 단백질이 결합한 복합체 구조 |
기존에는 단백질 구조를 알아내기 위해 X선 결정학이나 cryo-EM 같은 실험적 방법이 필요했다. 하지만 이러한 방법은 매우 비싸고 오래 걸리며, 모든 단백질에 적용 가능한 것도 아니었다.
막단백질이나 유연한 단백질은 구조 분석 자체가 매우 어려웠다. 이 때문에 오래전부터 “단백질 서열만으로 구조를 예측할 수는 없을까?”라는 문제가 생명정보학 분야의 핵심 난제로 남아 있었다.
이 문제를 해결하기 위해 등장한 것이 AI 기반 단백질 구조 예측 모델이다. DeepMind의 AlphaFold와 Baker Lab의 RoseTTAFold는 이러한 문제를 해결한 대표적인 사례이며, 생명과학 연구 패러다임 자체를 바꾸었다는 평가를 받고 있다.
https://pmc.ncbi.nlm.nih.gov/articles/PMC441606/?utm_source=chatgpt.com
RoseTTAFold의 핵심 구조와 작동 원리
RoseTTAFold의 가장 큰 특징은 three-track neural network 구조이다. 기존 AI 모델들은 보통 단백질 서열 정보만을 활용하거나, 거리 정보를 별도로 계산하는 방식이었다. 그러나 RoseTTAFold는 세 가지 정보를 동시에 상호작용시키는 구조를 설계하였다.
Track처리 정보역할
| 1D Track | 아미노산 서열 | 단백질의 기본 특징 및 진화 정보 분석 |
| 2D Track | residue-residue 관계 | 잔기 간 거리 및 접촉 관계 예측 |
| 3D Track | 실제 좌표 정보 | 최종 입체 구조 생성 |
이 구조의 핵심은 세 정보가 독립적으로 계산되는 것이 아니라 서로 정보를 교환한다는 점이다.
예를 들어 특정 두 아미노산이 진화 과정에서 항상 함께 변화했다면, 이는 구조적으로 서로 가까울 가능성이 높다는 의미가 된다. RoseTTAFold는 이러한 공진화(co-evolution) 정보를 분석하여 어떤 residue들이 공간적으로 가까이 존재할 가능성이 높은 지를 예측한다.
이후 2D distance map이 생성되며, AI는 이를 기반으로 실제 3차원 구조를 형성한다.
예를 들어 다음과 같은 거리 정보가 생성될 수 있다.
Residue PairPredicted Distance
| Cys3 – Cys40 | 2.1 Å |
| Ala20 – Tyr29 | 5.8 Å |
| Gly31 – Pro36 | 7.2 Å |
이러한 거리 정보는 단백질 내부에서 어떤 부분이 접히고, 어떤 구조가 형성될지를 결정하는 중요한 단서가 된다.
RoseTTAFold는 이러한 과정을 반복적으로 업데이트하면서 최종적으로 가장 안정적인 3차원 구조를 생성한다.
https://deepwiki.com/RosettaCommons/RoseTTAFold/7-example-usage?utm_source=chatgpt.com
Example Usage | RosettaCommons/RoseTTAFold | DeepWiki
This page provides concrete examples for using the RoseTTAFold system to predict protein structures. The document walks through the practical steps for running the different prediction pipelines with
deepwiki.com
https://www.science.org/doi/10.1126/science.abj8754?utm_source=chatgpt.com
AlphaFold와 RoseTTAFold의 차이점
AlphaFold와 RoseTTAFold는 모두 딥러닝 기반 단백질 구조 예측 모델이지만 접근 방식에는 차이가 존재한다.
구분AlphaFold2RoseTTAFold
| 개발 기관 | DeepMind | University of Washington |
| 핵심 구조 | Evoformer | Three-track network |
| 특징 | 매우 높은 정확도 | 구조 예측과 설계 확장성 |
| 장점 | 단일 구조 예측 성능 우수 | 상호작용 예측 및 생성 모델 확장 용이 |
| 활용 확장 | AlphaFold3 | RFdiffusion, RoseTTAFoldNA |
AlphaFold는 매우 높은 정확도로 유명하지만, RoseTTAFold는 비교적 가볍고 연구자들이 직접 수정 및 확장하기 쉬운 구조를 제공한다는 점에서 큰 장점이 있다.
실제로 RoseTTAFold는 이후 RFdiffusion 같은 생성형 단백질 설계 모델의 기반이 되었으며, 새로운 단백질을 설계하는 분야로 빠르게 발전하였다.
실제 단백질 구조 예측 사례
실제 단백질 구조 예측 과정을 이해하기 위해 Crambin 단백질 구조 예측 사례를 살펴볼 수 있다.
Crambin은 약 46개의 아미노산으로 구성된 매우 작은 식물 단백질이며, 구조가 잘 알려져 있어 AI 모델의 성능 평가에 자주 사용된다.
입력 FASTA 서열은 다음과 같다.
>Crambin
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
RoseTTAFold는 먼저 유사 단백질들을 검색하여 다중서열정렬(MSA)을 생성한다.
이 단계에서는 진화적으로 함께 변화한 residue들을 찾는다.
예를 들어 Cys3와 Cys40이 항상 함께 보존된다면, 이는 두 residue가 구조적으로 가까운 위치에 존재할 가능성이 높다는 의미가 된다.
그 다음 단계에서는 residue 간 거리 예측이 이루어진다.
이 과정에서 AI는 다음과 같은 정보를 추론한다.
- α-helix 형성 여부
- β-sheet pairing
- loop 영역
- 이황화결합(disulfide bond)
- 단백질 중심부(core) 형성
최종적으로 AI는 실제 3차원 좌표를 생성한다.
예측 결과는 PDB 파일 형태로 출력된다.
ATOM 1 N THR A 1 17.047 14.099 3.625
ATOM 2 CA THR A 1 16.967 12.784 4.257
ATOM 3 C THR A 1 15.685 12.095 3.764
ATOM 4 O THR A 1 14.640 12.721 3.646
생성된 구조를 PyMOL 또는 ChimeraX로 열면 실제 단백질 구조를 시각적으로 확인할 수 있다.
Crambin 예측 결과에서는 다음과 같은 특징이 관찰된다.
구조 특징설명
| α-helix | Residue 7–19 부근 |
| β-sheet | Residue 24–30 및 34–40 |
| Disulfide bond | Cys3 ↔ Cys40 |
| Flexible loop | 낮은 confidence score 영역 |
실제 실험 구조와 비교했을 때 RMSD 값은 약 1.2 Å 수준으로 매우 우수한 정확도를 보인다.
일반적으로 RMSD가 2 Å 이하이면 상당히 정확한 구조 예측으로 평가된다.
실제 구현 환경과 실행 방법
실제 연구 환경에서는 RoseTTAFold를 서버나 GPU 환경에서 실행한다.
대표적인 구현 방법은 두 가지이다.
- Robetta 웹 서버 사용
- 로컬 GPU 환경 구축
초보자나 교육 목적이라면 Robetta 서버를 사용하는 방식이 가장 쉽다.
사용자는 FASTA 파일만 업로드하면 AI가 자동으로 구조를 예측해 준다.
로컬 환경에서는 다음과 같은 방식으로 실행할 수 있다.
git clone https://github.com/RosettaCommons/RoseTTAFold.git
cd RoseTTAFold
bash run_e2e_ver.sh inputs/crambin.fasta outputs/crambin
이 과정에서 필요한 주요 요소는 다음과 같다.
요소역할
| GPU | 딥러닝 계산 수행 |
| MSA database | 유사 단백질 검색 |
| PyTorch | 딥러닝 프레임워크 |
| HHblits | 서열 검색 |
| PyMOL | 결과 시각화 |
실제 구조 예측에는 상당한 메모리와 GPU 연산량이 필요하며, 특히 MSA 생성 단계에서 CPU와 저장공간 사용량이 매우 크다.
RoseTTAFold의 활용 분야
RoseTTAFold는 단순한 단백질 구조 예측을 넘어 다양한 분야에서 활용되고 있다.
신약 개발 분야에서는 약물이 결합할 수 있는 단백질의 binding pocket을 분석할 수 있다.
효소 공학에서는 특정 residue를 변형하여 효소 활성을 개선하는 연구가 가능하다.
합성생물학에서는 기존 자연계에 존재하지 않는 새로운 단백질을 설계할 수 있다.
RFdiffusion은 RoseTTAFold 기반 생성형 모델로서 새로운 단백질 backbone을 생성할 수 있으며, 이는 생성형 AI가 생명과학 분야에 적용되는 대표적 사례로 평가된다.
RoseTTAFoldNA와 RoseTTAFold All-Atom은 단백질뿐 아니라 DNA, RNA, 금속 이온, 소분자 약물까지 포함한 복합체 구조를 예측할 수 있도록 발전하였다.
이는 향후 신약 개발과 맞춤형 단백질 설계 분야에서 매우 중요한 기술이 될 가능성이 높다.
RoseTTAFoldNA
RoseTTAFoldNA는 단백질뿐 아니라 DNA, RNA와 결합한 복합체 구조를 예측하기 위해 확장된 모델이다. Nature Methods 논문은 단백질-핵산 복합체 구조 예측이 아직 어려운 문제였으며, RoseTTAFold 접근을 확장해 단백질-RNA 및 단백질-DNA 복합체 예측에 적용했다고 설명한다.
https://www.nature.com/articles/s41592-023-02086-5?utm_source=chatgpt.com
RoseTTAFold All-Atom
RoseTTAFold All-Atom, 즉 RFAA는 단백질만이 아니라 핵산, 소분자, 금속 이온, 공유결합 변형까지 포함하는 생체분자 복합체를 모델링할 수 있도록 확장된 모델이다. Science 2024 논문은 RFAA가 아미노산과 DNA 염기는 residue-level 표현으로, 그 외 분자는 atomic-level 표현으로 다루어 복합 생체분자 구조를 예측한다고 설명한다.
https://www.science.org/doi/10.1126/science.adl2528?utm_source=chatgpt.com
RFdiffusion
RFdiffusion은 RoseTTAFold를 기반으로 한 생성형 단백질 설계 모델이다. 기존 RoseTTAFold가 “주어진 서열의 구조를 예측”하는 데 초점이 있었다면, RFdiffusion은 “원하는 기능이나 결합 조건을 만족하는 새로운 단백질 구조를 생성”하는 방향으로 발전했다. Nature 2023 논문은 RoseTTAFold 구조 예측 네트워크를 denoising task에 맞게 조정하여 단백질 backbone 생성, binder design, symmetric oligomer design, enzyme active site scaffolding 등에 활용했다고 보고했다.
https://www.nature.com/articles/s41586-023-06415-8?utm_source=chatgpt.com
RoseTTAFold의 한계와 미래
RoseTTAFold는 매우 강력한 AI 모델이지만 완벽한 기술은 아니다.
가장 큰 한계는 실제 생체 환경의 동적 변화를 완전히 반영하지 못한다는 점이다.
단백질은 세포 내부에서 끊임없이 움직이며, pH, 이온 농도, 온도, 주변 단백질 등의 영향을 받는다.
그러나, 현재 AI 구조 예측 모델은 대부분 정적인 구조(static structure)를 예측한다.
intrinsically disordered protein(IDP)처럼 구조가 유동적인 단백질은 정확한 예측이 어렵다.
약물 결합이나 효소 반응처럼 매우 정밀한 화학적 상호작용 역시 추가적인 분자동역학 시뮬레이션과 실험 검증이 필요하다.
그럼에도 불구하고 RoseTTAFold는 생명과학 연구 속도를 획기적으로 향상했으며, 앞으로 생성형 생물학(generative biology)과 AI 기반 신약 개발 분야의 핵심 기술로 발전할 가능성이 높다.
결론
RoseTTAFold는 인공지능과 생명정보학이 융합된 대표적 기술로서 단백질 구조 예측 분야에 혁신을 가져왔다.
특히 three-track neural network 구조를 통해 아미노산 서열, residue 간 거리, 3차원 좌표 정보를 동시에 학습함으로써 매우 높은 정확도의 구조 예측을 가능하게 했다.
이후 RoseTTAFold는 RFdiffusion, RoseTTAFoldNA, RoseTTAFold All-Atom 등으로 발전하면서 단순 구조 예측을 넘어 생성형 단백질 설계와 생체분자 복합체 모델링 분야까지 확장되었다.
현재 RoseTTAFold는 신약 개발, 효소 공학, 합성생물학, 바이오센서 설계, 생명정보학 교육 등 다양한 분야에서 핵심 AI 기술로 활용되고 있으며, 미래 생명과학 연구의 중요한 기반 기술로 자리 잡고 있다.
참고문헌
- Baek, M. et al. “Accurate prediction of protein structures and interactions using a three-track neural network.” Science, 2021.
- Krishna, R. et al. “Generalized biomolecular modeling and design with RoseTTAFold All-Atom.” Science, 2024.
- Watson, J. L. et al. “De novo design of protein structure and function with RFdiffusion.” Nature, 2023.
- Baek, M. et al. “Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA.” Nature Methods, 2024.
- Kim, D. E. et al. “Protein structure prediction and analysis using the Robetta server.” Nucleic Acids Research, 2004.
- Baker Lab, University of Washington. “RoseTTAFold: Accurate protein structure prediction accessible to all.” 2021.
- Baker Lab. “Modeling and generating more of life’s building blocks.” 2024.
'생명정보학 & 화학정보학 > 알파폴드와 단백질 구조 예측' 카테고리의 다른 글
| RoseTTAFold로 Lysozyme 단백질 구조를 실제로 예측해보기 (0) | 2026.05.24 |
|---|---|
| AlphaFold 3 개요 (3) | 2026.03.20 |
| 알파폴드2(AlphaFold2)를 이용한 SARS-CoV-2 Spike Glycoprotein(QHR63290.2) 구조 예측 (0) | 2025.10.23 |
| 알파폴드2의 작동 과정 (0) | 2025.10.23 |
| 알파폴드 개요 (0) | 2025.10.23 |