Notice
Recent Posts
Recent Comments
Link
관리 메뉴

데이터 과학

RoseTTAFold로 Lysozyme 단백질 구조를 실제로 예측해보기 본문

생명정보학 & 화학정보학/알파폴드와 단백질 구조 예측

RoseTTAFold로 Lysozyme 단백질 구조를 실제로 예측해보기

티에스윤 2026. 5. 24. 22:13

인공지능이 단백질 구조를 예측한다는 것은 무엇일까

최근 인공지능 기술은 단순히 글을 생성하거나 이미지를 만드는 수준을 넘어 생명과학 분야까지 빠르게 확장되고 있습니다. 특히 단백질 구조 예측 분야에서는 AlphaFold와 RoseTTAFold 같은 인공지능 모델이 등장하면서 생명과학 연구 방식 자체가 크게 변화하고 있습니다.

과거에는 단백질의 구조를 알아내기 위해 X선 결정학(X-ray crystallography), 핵자기공명(NMR), 저온전자현미경(cryo-EM) 같은 복잡한 실험 장비와 오랜 연구 시간이 필요했습니다. 하지만 이제는 단백질의 아미노산 서열만 입력해도 인공지능이 단백질의 3차원 구조를 상당히 정확하게 예측할 수 있게 되었습니다.

그중 RoseTTAFold는 미국 워싱턴대학교 David Baker 연구팀이 개발한 AI 기반 단백질 구조 예측 모델입니다. 이 모델은 단백질 서열, residue 간 거리 정보, 실제 3차원 좌표를 동시에 계산하는 three-track neural network 구조를 사용합니다.

쉽게 말하면 RoseTTAFold는 단백질이 어떻게 접히는지를 AI가 학습하여, 최종적으로 실제 단백질과 매우 비슷한 입체 구조를 만들어내는 기술입니다.

이번 글에서는 실제 Lysozyme 단백질을 예시로 사용하여 RoseTTAFold가 어떻게 단백질 구조를 예측하는지, 어떤 과정을 거치는지, 실제 결과를 어떻게 해석하는지를 자세히 설명합니다.


Lysozyme은 어떤 단백질인가

Lysozyme은 생명과학에서 매우 유명한 효소 단백질입니다.

사람의 눈물, 침, 점액, 모유, 달걀 흰자 등에 존재하며, 세균을 공격하는 역할을 합니다.

Lysozyme의 핵심 기능은 세균의 세포벽을 분해하는 것입니다. 세균 세포벽은 펩티도글리칸이라는 물질로 구성되어 있는데, Lysozyme은 이 구조를 절단하여 세균이 살아남지 못하게 만듭니다.

쉽게 말하면 Lysozyme은 우리 몸의 천연 항생제 같은 역할을 하는 단백질입니다.

Lysozyme이 구조 예측 사례로 자주 사용되는 이유는 다음과 같습니다.

  • 구조가 비교적 안정적입니다.
  • 실제 실험 구조가 많이 알려져 있습니다.
  • 단백질 크기가 너무 크지 않아 분석하기 쉽습니다.
  • α-helix와 loop 구조가 잘 나타납니다.
  • 효소 활성 부위를 확인하기 좋습니다.

따라서 Lysozyme은 단백질 구조 예측을 처음 공부하는 학생이나 연구자가 실습하기에 매우 적합한 단백질입니다.


단백질 구조는 왜 중요한가

단백질은 단순한 아미노산 사슬이 아닙니다.

아미노산 서열이 접히면서 특정한 입체 구조를 형성하고, 이 구조가 단백질의 기능을 결정합니다.

예를 들어 효소 단백질은 특정 분자와 정확하게 결합할 수 있는 구조를 가져야 합니다. 항체 단백질은 바이러스나 세균의 특정 부분을 인식할 수 있는 구조를 가져야 합니다.

단백질은 모양이 곧 기능입니다.

단백질 구조는 일반적으로 다음처럼 구분됩니다.

 

구조 단계의미

1차 구조 아미노산 서열
2차 구조 α-helix, β-sheet
3차 구조 전체 입체 구조
4차 구조 여러 단백질이 결합한 구조

RoseTTAFold는 결국 1차 구조인 아미노산 서열만 보고 3차 구조를 예측하는 AI 모델입니다.


RoseTTAFold는 어떻게 구조를 예측할까

RoseTTAFold의 핵심은 three-track neural network입니다.

이 모델은 세 가지 정보를 동시에 처리합니다.

 

정보의미

1D 정보 아미노산 서열
2D 정보 residue 간 거리
3D 정보 실제 입체 좌표

기존 방식은 단백질 서열만 보거나 거리 정보만 계산하는 경우가 많았습니다.

하지만 RoseTTAFold는 세 가지 정보를 동시에 서로 주고받으면서 계산합니다.

예를 들어 다음과 같은 과정을 거칩니다.

  1. 입력된 단백질 서열과 비슷한 단백질들을 검색합니다.
  2. 어떤 residue들이 함께 진화했는지 분석합니다.
  3. 구조적으로 가까울 가능성이 높은 residue를 찾습니다.
  4. residue 간 거리 지도를 만듭니다.
  5. AI가 단백질의 접힘 구조를 계산합니다.
  6. 최종 3차원 구조를 생성합니다.

이 과정에서 RoseTTAFold는 수많은 단백질 구조 데이터를 학습한 경험을 바탕으로 단백질이 어떤 형태로 접힐 가능성이 높은지를 예측합니다.

 


실제 Lysozyme 구조 예측 준비하기

이번 사례에서는 T4 Lysozyme이라는 단백질을 사용합니다.

예측을 위해서는 먼저 FASTA 형식의 단백질 서열이 필요합니다.

FASTA 파일은 다음과 같이 작성합니다.

>T4_lysozyme_example
MNIFEMLRIDEGLRLKIYKDTEGYYTIGIGHLLTKSPSLNAAKSELDKAIGRNTNGVITKDEAEKLFNQDVDAAVRGILRNAKLKPVYDSLDAVRRCALINMVFQMGETGVAGFTNSLRMLQQKRWDEAAVNLAKSRWYNQTPNRAKRVITTFRTGTWDAYKNL

첫 번째 줄은 단백질 이름입니다.

그 아래에는 아미노산 서열이 한 글자 코드로 적혀 있습니다.

예를 들어 다음과 같습니다.

문자아미노산

M Methionine
G Glycine
A Alanine
L Leucine
Y Tyrosine

RoseTTAFold는 이 문자열만 가지고 단백질 구조를 예측합니다.

처음 보면 단순한 문자 데이터처럼 보이지만, AI는 이 서열 안에서 단백질 구조를 결정하는 패턴을 분석합니다.


Robetta 서버로 구조 예측하기

교육용이나 실습용으로 가장 쉬운 방법은 Robetta 서버를 사용하는 것입니다.

Robetta는 Baker Lab에서 제공하는 웹 기반 구조 예측 플랫폼입니다.

복잡한 GPU 환경이나 데이터베이스 설치 없이 웹 브라우저만으로 구조 예측을 수행할 수 있습니다.

기본 과정은 다음과 같습니다.

 

단계설명

1 Robetta 사이트에 접속합니다.
2 계정으로 로그인합니다.
3 Structure Prediction 메뉴를 선택합니다.
4 FASTA 서열을 입력합니다.
5 작업 이름을 입력합니다.
6 예측을 시작합니다.
7 완료 후 PDB 파일을 다운로드합니다.

 

https://robetta.bakerlab.org/login.php?next_url=%2Fsubmit.php

 

Log in

 

robetta.bakerlab.org

 

서버 내부에서는 다음 작업들이 자동으로 수행됩니다.

  • 유사 단백질 검색
  • 다중서열정렬(MSA) 생성
  • residue 거리 예측
  • 3차원 구조 계산
  • confidence score 계산

사용자는 최종적으로 예측된 단백질 구조 파일을 받게 됩니다.


다중서열정렬(MSA)은 왜 중요한가

RoseTTAFold에서 가장 중요한 단계 중 하나는 MSA입니다.

MSA는 Multiple Sequence Alignment의 약자로, 여러 유사 단백질의 서열을 정렬하여 비교하는 과정입니다.

단백질은 진화 과정에서 구조적으로 중요한 residue를 보존하는 경향이 있습니다.

예를 들어 특정 residue가 항상 함께 바뀐다면, 두 residue는 실제 구조에서도 가까운 위치에 존재할 가능성이 높습니다.

RoseTTAFold는 이러한 공진화(co-evolution) 정보를 이용하여 residue 간 거리와 접촉 관계를 예측합니다.

예를 들어 AI는 다음과 같은 정보를 계산할 수 있습니다.

 

Residue PairPredicted Distance

Lys12 – Asp34 3.1 Å
Gly18 – Tyr52 5.8 Å
Ala40 – Leu89 7.3 Å

이러한 거리 정보는 단백질이 어떻게 접힐지를 결정하는 핵심 요소입니다.


단백질 구조가 실제로 생성되는 과정

MSA와 거리 정보가 준비되면 RoseTTAFold는 실제 3차원 구조를 계산합니다.

이 과정에서 AI는 다음 요소들을 동시에 고려합니다.

  • α-helix 형성
  • β-sheet 형성
  • loop 구조
  • residue 간 상호작용
  • 소수성 중심부 형성
  • 구조 안정성

최종 결과는 PDB 파일 형태로 저장됩니다.

예를 들어 다음과 같은 내용이 생성됩니다.

ATOM      1  N   MET A   1      12.351  18.204   9.156
ATOM      2  CA  MET A   1      13.482  17.421   8.632
ATOM      3  C   MET A   1      14.765  18.235   8.921
ATOM      4  O   MET A   1      15.824  17.732   8.582

여기서 x, y, z 값은 각 원자의 3차원 좌표입니다.

즉, AI가 실제 단백질의 입체 구조를 수학적으로 생성한 것입니다.


PyMOL로 구조를 시각화해보기

예측된 PDB 파일은 PyMOL 같은 프로그램에서 열 수 있습니다.

 

https://tsyoon.tistory.com/209

 

pymol (단백질 구조 뷰어 프로그램)

단백질 구조 뷰어 프로그램 pymol은 델라노사이언티픽에 의해서 상업화된 오픈 소스, 사용자지원의 분자시각화 시스템입니다.  https://pymol.org/ PyMOL | pymol.orgOr install from the Schrodinger Anaconda Channel

tsyoon.tistory.com

 

PyMOL은 단백질 구조를 시각화하는 대표적인 프로그램입니다.

기본 명령어는 다음과 같습니다.

load model_1.pdb
show cartoon
color cyan

이 명령어를 입력하면 단백질 구조가 리본(cartoon) 형태로 나타납니다.

α-helix는 나선형으로 표시되고, β-sheet는 화살표 형태로 보입니다.

특정 residue를 강조하려면 다음과 같이 입력할 수 있습니다.

show sticks, resi 45+46+47
color yellow, resi 45+46+47

이렇게 하면 활성 부위 주변 residue를 강조하여 볼 수 있습니다.


Lysozyme 구조를 어떻게 해석할까

T4 Lysozyme의 구조에서는 여러 개의 α-helix가 관찰됩니다.

이러한 α-helix는 단백질의 안정적인 골격 역할을 합니다.

반면 loop 영역은 상대적으로 유연하며, 단백질 기능 변화와 관련될 가능성이 있습니다.

Lysozyme은 효소이기 때문에 구조 내부에는 기질이 결합할 수 있는 공간적 홈(binding pocket)이 존재합니다.

예측 결과를 볼 때는 다음 요소를 중심으로 관찰할 수 있습니다.

 

관찰 요소의미

α-helix 구조 안정성
loop 영역 유연성
binding pocket 기질 결합 가능성
낮은 confidence 영역 구조 예측 불확실성
중심부 소수성 영역 단백질 안정화

 

이러한 구조적 특징은 단백질 기능과 직접 연결됩니다.


실제 구조와 비교하기

Lysozyme은 실제 실험 구조가 이미 PDB 데이터베이스에 등록되어 있습니다.

 

https://www.rcsb.org/

 

RCSB PDB: Homepage

As a member of the wwPDB, the RCSB PDB curates and annotates PDB data according to agreed upon standards. The RCSB PDB also provides a variety of tools and resources. Users can perform simple and advanced searches based on annotations relating to sequence,

www.rcsb.org

 

 

따라서 RoseTTAFold 예측 결과와 실제 구조를 비교할 수 있습니다.

이때 사용하는 대표적인 값이 RMSD입니다.

RMSD는 두 구조의 차이를 평균적으로 계산한 값입니다.

 

RMSD 값의미

1 Å 이하 매우 높은 유사성
1–2 Å 우수한 예측
2–4 Å 일부 차이 존재
4 Å 이상 구조 차이 큼

PyMOL에서는 다음과 같이 비교할 수 있습니다.

load predicted_lysozyme.pdb
load experimental_lysozyme.pdb
align predicted_lysozyme, experimental_lysozyme

AI 예측 구조와 실제 구조가 거의 비슷하게 겹쳐지는 모습을 확인할 수 있습니다.

이것이 바로 AI 기반 단백질 구조 예측이 혁신적이라고 평가받는 이유입니다.


로컬 GPU 환경에서 직접 실행하기

연구용 환경에서는 RoseTTAFold를 직접 설치하여 실행하기도 합니다.

기본 설치 과정은 다음과 같습니다.

git clone https://github.com/RosettaCommons/RoseTTAFold.git
cd RoseTTAFold

입력 파일을 준비합니다.

mkdir inputs
nano inputs/t4_lysozyme.fasta

예측 실행은 다음과 같습니다.

bash run_e2e_ver.sh inputs/t4_lysozyme.fasta outputs/t4_lysozyme

 

다만 실제 연구 환경에서는 상당한 GPU 메모리와 대용량 데이터베이스가 필요합니다.

MSA 데이터베이스는 수백 GB 이상이 필요한 경우도 많습니다.

교육용 실습에서는 Robetta 서버를 사용하는 방식이 훨씬 현실적입니다.


왜 이 기술이 중요한가

RoseTTAFold 같은 기술은 단순히 단백질 구조를 예측하는 수준을 넘어 다양한 분야로 확장되고 있습니다.

대표적으로 다음과 같은 분야에서 활용됩니다.

 

분야활용 사례

신약 개발 약물 결합 부위 분석
효소 공학 효소 활성 개선
항체 설계 바이러스 결합 구조 예측
합성생물학 새로운 단백질 설계
바이오센서 특정 분자 인식 단백질 설계

 

RFdiffusion 같은 생성형 AI 모델은 새로운 단백질 자체를 설계하는 수준까지 발전하고 있습니다.

즉, AI가 단순히 기존 단백질을 분석하는 것이 아니라, 새로운 생체 분자를 설계하는 단계로 발전하고 있는 것입니다.


마무리

Lysozyme 단백질 구조 예측 사례는 RoseTTAFold의 실제 작동 원리를 이해하기에 매우 좋은 예시입니다.

단백질의 아미노산 서열만 입력했음에도 불구하고, AI는 residue 간 거리 관계를 추론하고 실제 단백질과 매우 유사한 3차원 구조를 생성할 수 있습니다.

이 과정은 생명과학, 인공지능, 데이터 과학, 화학, 수학이 융합된 대표적인 사례라고 할 수 있습니다.

이러한 기술은 앞으로 신약 개발, 단백질 디자인, 맞춤형 의학, 합성생물학 분야에서 더욱 중요해질 가능성이 높습니다.

따라서 RoseTTAFold를 활용한 Lysozyme 구조 예측 사례는 단순한 실습이 아니라, 미래 생명과학과 AI 기술이 만나는 중요한 출발점이라고 볼 수 있습니다.


참고자료

  1. RoseTTAFold GitHub Repository
  2. Baker Laboratory, University of Washington
  3. Robetta Server Documentation
  4. Protein Data Bank (PDB)
  5. PyMOL Documentation
  6. Science 2021 RoseTTAFold 논문
  7. AlphaFold 및 단백질 구조 예측 관련 리뷰 논문