일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 바이오인포매틱스
- SVM
- 생명정보학
- 인공신경망
- AP
- 인공지능
- 자바
- ncbi
- AP Computer Science A
- MERS
- Java
- bioinformatics
- 이항분포
- 서열정렬
- BLaST
- 인공지능 수학
- Kaggle
- CNN
- 파이썬
- 캐글
- 블록체인
- 행렬
- COVID
- 딥러닝
- 오류역전파
- 생물정보학
- 결정트리
- 시그모이드
- 바이오파이썬
- 알파폴드
- Today
- Total
데이터 과학
알파폴드 실습 - 코랩폴드 본문
이번 자료는 알파폴드 실습하기입니다.
Bric에 올라론 자료를 보고 PC에 알파폴드를 설치하려고 하면 엄청난 데이터베이스의 크기와 GPU를 탑재해서 시스템을 운영해야 하는 문제로 고민이 많습니다.
알파폴드는 딥러닝 알고리즘인 CNN을 기반으로 운영되기에 적당한 수준의 그래픽카드가 필요합니다.
노트북에서는 운용이 어렵겠죠.
구글 코랩에서 사용할 수 있게 만들어 놓은 프로그램이 있습니다.
코랩폴드입니다.
구글 계정으로 로그인이 가능하다면 다음 링크를 접속합니다.
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
코랩폴드에 대한 자세한 논문은 다음 링크에 있습니다.
https://www.nature.com/articles/s41592-022-01488-1
시간 될 때 논문을 정독해서 프로그램이 어떤 방향성을 가지고 작성되었는지 확인해 보시기 바랍니다.
실습을 위해 단백질 서열을 NCBI에 가서 다운받아 봅시다.
코로나- 19 Surface 프로틴 서열입니다.
https://www.ncbi.nlm.nih.gov/protein/YP_009724390.1?report=fasta
surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] - Protein - NCBI
no features Feature First Previous Next Last Details
www.ncbi.nlm.nih.gov
단백질 서열에 대한 파일은 다음을 참고하면 됩니다.
>YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2]
MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHV
SGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPF
LGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPI
NLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYN
ENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASV
YAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIAD
YNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYF
PLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFL
PFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLT
PTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLG
AENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGI
AVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDC
LGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIG
VTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDI
LSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLM
SFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQRNFYEPQIITTDNT
FVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVA
KNLNESLIDLQELGKYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDD
SEPVLKGVKLHYT
이 파일입니다.
주석 부분을 빼고, 본문 서열을 복사해서 코랩폴드인 query_sequence 에 붙여 넣기를 합니다.
일반적인 코랩에서 파이썬 실행하듯이 실행버튼을 눌러봅시다.
실행을 하면 다음과 같은 경고 메시지가 뜨는 데 무시.
쿼리에 대한 응답 시간이 조금은걸립니다.
쿼리가 끝나면 MSA Option이라는 메뉴가 있습니다.
아무것고 건드리지 말고 파이썬 실행 버튼을 순차적으로 눌러줍니다.
MSA 명령어중에 옵션이 사용되는 것이 있는데 MMseq2(UniRef+Environmnt) 라는 명령어를 디폴트로 사용하는데 이 내용은 다음 링크에 자세히 나와 있습니다.
https://github.com/soedinglab/MMseqs2
GitHub - soedinglab/MMseqs2: MMseqs2: ultra fast and sensitive search and clustering suite
MMseqs2: ultra fast and sensitive search and clustering suite - GitHub - soedinglab/MMseqs2: MMseqs2: ultra fast and sensitive search and clustering suite
github.com
MMseqs2를 소개하는 자료를 보면 다음과 같은 내용으로 설명합니다.
MMseqs2 (Many-against-Many sequence searching) 는 BLAST보다 10000배 빠르게 실행할 수 있습니다. 100배의 속도에서 거의 동일한 감도를 달성합니다. 400배 이상의 속도에서 PSI-BLAST와 동일한 감도로 프로파일 검색을 수행할 수 있습니다.
이후에도 순차적으로 코랩 실행버튼을 눌러봅시다.
Install Dependencies 명령어에서는 코랩 실행 버튼을 누르면 조금 더 올래 기다려야 결과가 나옵니다.
대략 47초 정도 걸립니다.
Run Prediction도 실행해 봅시다. 시간이 오래 걸립니다.
오래 걸리는 시간 동안 위 논문이나 아래 링크를 읽어보는게 좋습니다.
Bric, 브릭 사이트에는 좋은 글들이 많이 있는데 구글링해도 나오긴 하는데 브릭안에 좋은 내용들이 있습니다.
그리고, 아래는 부산대 최정모 교수님이 쓴 단백질 접힘 이야기입니다.
https://horizon.kias.re.kr/21532/
단백질 접힘 이야기
2021년 과학계를 뒤집어 놓은 뉴스를 꼽으라면 ``알파폴드AlphaFold의 성공''이 반드시 들어갈 것이다. 알파폴드는 이세돌에게 4:1로 승리를 거둬 세상을 놀라게 한 알파고AlphaGo를 만든 딥마인드DeepMi
horizon.kias.re.kr
Run Prediction을 하면 총 5개의 단백질 구조가 나타납니다.
3시간 만에 결과가 나왔습니다.
Display 3D structure 메뉴는 3차 구조를 보여주는 메뉴입니다. 기본은 IDDT로 설정이 되어 있는데 이를 rainbow나 Chain으로 변경을 하면 그에 맞는 환경이 나타납니다. show_sidechains는 잔기를 표기하는 메뉴입니다.
IDDT 옵션일 때 나오는 구조
Rainbow일 때 나타나는 구조
Plots은 coverage에 대한 내용을 그래프로 보여주는 것으로 단백질 접힘에 대한 내용을 확률적으로 표기한 내용입니다.
coverage값이 높지는 않습니다. IDDT 예측값도 50% 이하의 값도 많이 나오고 있네요.
Package and download results는 그래프로 표기된 내용을 다운로드할 수 있게 해 줍니다.
다운로드한 파일은 아래에 있습니다.
여기까지 코랩폴드에 대해 알아봤습니다.
참고: 이주용 교수 연구실 https://www.youtube.com/watch?v=dZgKgV6GETU
'생명정보학 & 화학정보학 > 알파폴드와 단백질 구조 예측' 카테고리의 다른 글
pymol (단백질 구조 뷰어 프로그램) (0) | 2024.10.22 |
---|---|
단백질 구조 예측, CF & GOR 방법 (1) | 2023.09.16 |
단백질 구조 예측 서론과 알파폴드 설치 (2) | 2022.10.17 |
아미노산 구조 (0) | 2022.10.11 |