| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 인공지능
- 자바
- RNN
- bioinformatics
- 바이오파이썬
- 블록체인
- COVID
- HMM
- 오류역전파
- Java
- 서열정렬
- 파이썬
- 시그모이드
- 인공지능 수학
- ncbi
- 생물정보학
- Kaggle
- 결정트리
- CNN
- 캐글
- 이항분포
- MERS
- AP Computer Science A
- 딥러닝
- 바이오인포매틱스
- BLaST
- 인공신경망
- SVM
- 생명정보학
- AP
- Today
- Total
데이터 과학
단백질 구조 예측 서론과 알파폴드 설치 본문
단백질 구조 예측을 하는 이유?
단백질 구조 예측을 하는 이유는, 단백질의 기능이 단순히 아미노산 서열 자체에만 있는 것이 아니라 그 서열이 접혀 형성한 입체적 구조에 의해 결정되기 때문입니다.
생명체 안에서 단백질은 효소, 수용체, 운반체, 구조 단백질, 신호 전달 분자 등 매우 다양한 역할을 수행하는데, 이 역할의 대부분은 단백질이 어떤 모양으로 접혀 있는가에 따라 달라집니다.
단백질 구조를 예측한다는 것은 곧 그 단백질이 생체 내에서 어떤 방식으로 작동하는지를 이해하는 핵심 과정입니다.
가장 근본적인 이유는 단백질의 기능을 이해하기 위해서입니다.
같은 길이의 단백질이라도 어떤 입체 구조를 가지느냐에 따라 전혀 다른 기능을 수행할 수 있습니다.
예를 들어 효소는 특정 기질이 결합할 수 있는 활성 부위를 가져야 하고, 수용체는 특정 분자를 인식할 수 있는 구조를 가져야 하며, 항체는 항원을 정밀하게 결합할 수 있는 표면 형태를 가져야 합니다.
단백질 구조를 알면 그 단백질이 무엇과 결합하는지, 어떤 반응을 촉진하는지, 어떤 생리적 역할을 하는지를 추론할 수 있게 되는 것입니다.
두 번째 이유는 질병의 원인을 이해하기 위해서입니다.
많은 질병은 단백질 구조의 이상과 직접적으로 연결되어 있습니다. 유전자 돌연변이가 발생하면 아미노산 서열이 바뀌고, 이 변화가 단백질의 접힘 구조를 불안정하게 만들거나 활성 부위를 변형시킬 수 있습니다. 그 결과 원래 정상적으로 수행되어야 할 기능이 사라지거나 비정상적인 기능이 나타날 수 있습니다.
예를 들어 어떤 단백질이 제대로 접히지 못하면 분해되어 버리거나, 세포 안에 축적되어 독성을 유발할 수 있습니다. 따라서 단백질 구조 예측은 단순한 형태 분석이 아니라 질병 발생 메커니즘을 분자 수준에서 설명하는 중요한 수단입니다.
세 번째 이유는 신약 개발에 매우 중요하기 때문입니다.
약물은 대부분 특정 단백질에 결합하여 작용합니다. 이때 약물이 결합하는 위치와 방식은 단백질의 3차원 구조에 의해 결정됩니다.
구조를 모르면 어떤 약물이 잘 결합할지 예측하기 어렵지만, 구조를 알면 활성 부위나 결합 포켓을 찾을 수 있고, 거기에 잘 맞는 후보 물질을 설계할 수 있습니다.
이것이 구조 기반 신약 설계의 핵심입니다.
예전에는 단백질 구조를 실험적으로 밝히는 데 오랜 시간과 큰 비용이 필요했지만, 구조 예측 기술이 발전하면서 신약 후보 탐색과 최적화 과정이 훨씬 빨라지고 효율적으로 바뀌고 있습니다.
네 번째 이유는 실험적 구조 분석의 한계를 보완하기 위해서입니다.
단백질 구조를 밝히는 전통적인 방법으로는 X선 결정학, NMR 분광학, cryo-EM 같은 기술이 있습니다.
이러한 방법은 매우 정확하지만, 모든 단백질에 쉽게 적용할 수 있는 것은 아닙니다.
어떤 단백질은 결정화가 어렵고, 어떤 단백질은 너무 크거나 너무 유연해서 분석이 어렵습니다.
막단백질처럼 다루기 까다로운 단백질도 많습니다. 구조 예측은 이런 한계를 보완하여, 실험적으로 구조를 얻기 힘든 단백질에 대해서도 빠르게 가설적 구조를 제공할 수 있다는 점에서 매우 중요합니다.
다섯 번째 이유는 생명 현상을 체계적으로 이해하기 위해서입니다.
생명체 안에서는 단백질이 혼자 작동하는 경우보다 다른 분자와 함께 작동하는 경우가 훨씬 많습니다. 단백질은 단백질끼리 결합하기도 하고, DNA나 RNA와 결합하기도 하며, 금속 이온이나 작은 유기분자와 결합하기도 합니다.
이러한 상호작용은 모두 구조적 적합성에 의해 결정됩니다. 따라서 구조 예측은 단일 단백질만 이해하는 데 그치지 않고, 세포 내 신호 전달, 유전자 조절, 대사 경로, 면역 반응 같은 복잡한 생명 현상을 네트워크 수준에서 이해하는 데에도 필요합니다.
여섯 번째 이유는 진화와 생물학적 유사성을 해석하는 데 도움이 되기 때문입니다.
서로 아미노산 서열이 많이 다르더라도 비슷한 구조를 가지면 유사한 기능을 수행하는 경우가 많습니다. 반대로 서열이 비슷해 보여도 구조가 다르면 기능이 달라질 수 있습니다. 따라서 구조는 서열보다 더 보존적인 생물학적 정보가 될 때가 많습니다. 구조 예측을 통해 서로 다른 종의 단백질을 비교하면 공통 조상, 기능적 유사성, 진화적 보존성을 더 깊이 이해할 수 있습니다.
일곱 번째 이유는 생명정보학과 인공지능 연구의 핵심 문제이기 때문입니다.
단백질 구조 예측은 오랫동안 생명과학의 가장 어려운 문제 가운데 하나였습니다.
아미노산 서열만으로 최종 구조를 알아내는 문제는 단순해 보이지만, 실제로는 매우 복잡한 물리적 화학적 상호작용이 얽혀 있습니다. 이 문제를 해결하는 과정에서 통계학, 물리학, 컴퓨터과학, 인공지능, 분자생물학이 함께 발전해 왔습니다.
이에 단백질 구조 예측은 단지 결과를 얻는 기술이 아니라, 현대 과학이 복합 문제를 푸는 방식을 보여 주는 대표적인 사례이기도 합니다.
교육적으로도 단백질 구조 예측은 매우 중요합니다.
학생들은 이를 통해 “서열 → 구조 → 기능”이라는 생명과학의 핵심 원리를 구체적으로 이해할 수 있습니다.
단순히 유전자나 단백질 이름을 외우는 수준을 넘어서, 왜 특정 돌연변이가 질병을 일으키는지, 왜 특정 약물이 특정 단백질에만 작용하는지, 왜 단백질의 모양이 기능을 결정하는지를 시각적으로 이해할 수 있기 때문입니다.
이에 AlphaFold와 같은 도구를 활용하면 학생들이 추상적인 개념을 실제 구조로 확인하면서 생명과학을 훨씬 깊이 있게 학습할 수 있습니다.
결국 단백질 구조 예측을 하는 이유는 하나로 정리할 수 있습니다.
단백질의 구조를 알면 그 단백질의 기능, 상호작용, 질병 관련성, 약물 표적 가능성, 진화적 의미까지 폭넓게 이해할 수 있기 때문입니다.
다시 말해 단백질 구조 예측은 단백질의 모양을 알아내는 일이 아니라, 생명 현상을 분자 수준에서 해석하고 응용하는 출발점이라고 할 수 있습니다.
----------------------------------------------------------
단백질 구조 예측은 20년 전인 2000년대 초반부터 연구했던 분야입니다.
그 당시에는 일반적인 인공지능 알고리즘으로 분석을 진행했는데, 예측률이 78% 정도에서 예측이 되었습니다.
예측률에 대한 한계점이 있었습니다. 단백질 구조 예측은 생명정보학에 있어서 아주 중요한 분야이며 인류 질병 문제를 해결할 수 있는 획기적인 방법입니다.
구글에서 단백질구조 예측을 전문으로 하는 회사로 만들었다는 이야기가 들리지요.
아미노산의 폴딩으로 인한 질병들의 원인과 원리를 파악하여 치료제를 만들어 낼 수 있겠지요.
질병 치료에 획기적인 방법을 만들어 낼 수 있습니다.
이에 대해 연구한 논문들이 있는데 그 논문은 2018년에 일본 쓰쿠바대학에서 발표한 내용이 있습니다.
RS126 데이터를 활용한 단백질 구조 예측인데 지금에서 보면 인공 신경망을 활용한 전통적인 연구 방법입니다.
SVM이나 오류역전파를 활용한 방법은 예측률이 그다지 높지 않아 예측의 한계점이 있었습니다.
연구 내용은 아래 링크에서 확인 할 수 있습니다.
https://dl.acm.org/doi/10.1145/3239438.3239452
In this research, the learning based solely on amino acid sequences were conducted using ANN. By considering various conditions such as window size, dropout, optimizer, etc., it was shown that the highest accuracy of predicting whether the amino acid is part of α-helix or not was about 74%, and whether the amino acid is part of α-helix, β-sheet or the other structures was about 50%. Our model has a limitation that highest accuracy is bound to a certain value. However, it has a significance of embodying the protein secondary structure prediction model that learns only from amino acid sequences; it is simpler than multiple sequence alignment, the widely used method in protein secondary structure prediction.
Protein Secondary Structure Prediction from Amino Acid Sequence Using Artificial Neural Network | Proceedings of the 2nd Interna
Given a known protein sequence, predicting its secondary structure can help understand its three-dimensional (tertiary) structure, i.e., the folding. In this paper, we present an approach for predicting protein secondary structures. Different from the ...
dl.acm.org
현재는 딥러닝을 이용한 단백질구조 예측이라는 것이 좋은 아이디어를 활용하는 방법으로 개발을 하고 있습니다.
그리고, 알파고 알고리즘을 활용한 알파폴드가 나와 있습니다.
단백질 구조 예측은 일반적인 인공신경망이나 SVM으로 예측하면 성능이 80%를 넘기기 어렵습니다.
하지만, 알파폴드 예측률은 그 이상입니다.
초기 알고리즘은 딥러닝 컨볼루션을 기반으로 작성했습니다. 알파폴드2는 트랜스포머로 제작하였습니다.
단백질 구조 예측에서 새로운 지평을 열고 있는 알파폴드 소스입니다.
https://github.com/deepmind/alphafold
GitHub - deepmind/alphafold: Open source code for AlphaFold.
Open source code for AlphaFold. Contribute to deepmind/alphafold development by creating an account on GitHub.
github.com

알파폴드 홈페이지
https://alphafold.ebi.ac.uk/
알파폴드 단백질 구조 데이터베이스
https://alphafold.ebi.ac.uk/entry/F4HVG8
알파폴드 설치 방법
https://www.ibric.org/myboard/read.php?Board=news&id=337509
AlphaFold Protein Structure Database
alphafold.ebi.ac.uk
알파폴드 작동원리
https://taehojo.github.io/alphafold/alphafold2.html
알파폴드 3에 대한 소개 (2024년 6월 현재)
https://contents.premium.naver.com/banya/banyacompany/contents/240513112919581ns
또 한 번의 생물학 AI 혁명 – 구글 딥마인드의 단백질 구조 예측 모델 ‘알파폴드(AlphaFold) 3’
단백질은 생명의 필수 요소로서 모든 생명체의 생체 활동에 깊숙이 관여하고 있습니다. 화학 반응의 가속, 신호 전달, 영양소의 운반, 신체 형성, 효소 활성화, 면역 반응까지 모든 것이 단백질
contents.premium.naver.com
https://terms.naver.com/entry.naver?docId=6478780&cid=67478&categoryId=67478
https://terms.naver.com/entry.naver?docId=5750733&cid=60296&categoryId=60302
참고 사이트 : https://www.aitimes.kr/news/articleView.html?idxno=25674
'생명정보학 & 화학정보학 > 알파폴드와 단백질 구조 예측' 카테고리의 다른 글
| 알파폴드 개요 (0) | 2025.10.23 |
|---|---|
| pymol (단백질 구조 뷰어 프로그램) (0) | 2024.10.22 |
| 단백질 구조 예측, CF & GOR 방법 (4) | 2023.09.16 |
| 알파폴드 실습 - 코랩폴드 (2) | 2022.11.14 |
| 아미노산 구조 (0) | 2022.10.11 |