일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 생명정보학
- 바이오파이썬
- 결정트리
- 인공신경망
- ncbi
- 딥러닝
- Kaggle
- 인공지능
- 시그모이드
- 인공지능 수학
- 생물정보학
- 오류역전파
- 블록체인
- AP
- CNN
- 바이오인포매틱스
- SVM
- COVID
- 캐글
- 알파폴드
- AP Computer Science A
- bioinformatics
- 이항분포
- 행렬
- BLaST
- 서열정렬
- 파이썬
- MERS
- 자바
- Java
- Today
- Total
데이터 과학
바이오인포매틱스 개요 본문
생명정보학은 컴퓨터공학과 생명과학 사이에서 다양한 유전체 관련 자료들을 알고리즘적으로 분석하는 학문입니다.
이에 대한 정의는 여러 가지로 나타낼 수 있는데 현재에 들어와서 그 시작은 인간의 게놈(genome) 프로젝트였다고 해도 과언은 아닙니다.
생명정보학은 DNA, RNA 그리고 단백질과 같은 생물학적 고분자들과 연관된 정보를 저장, 검색, 조작 및 배포를 위해 컴퓨터를 사용하는 기술을 가지고 있습니다. 컴퓨터를 사용하는 가장 큰 이유는 게놈 데이터의 분석에 있어 반복적이거나 수학적으로 복잡한 작업들이 있기 때문으로 이러한 작업은 상당히 단순하지만 반복성이 많은 작업으로 게놈 데이터를 마이닝(mining)할 때는 필수적인 부분입니다.
생명정보학(Bioinformatics)과 전산생물학(Computational biology)은 다른 분야입니다. 전산 생물학은 생물학에서 컴퓨터를 이용한 분야로 생태계의 수학적 모델링이나 인구 역학 이론을 가지고 있는 행동 게임이론 적용 등이 전산 생물학의 한 분야이고, 생명정보학은 유전자의 구조, 서열, 유사성등을 분석하는 학문으로 단백질 구조 예측을 하는 유전체와 연결된 학문으로 정의할 수 있습니다.
생명정보학은 하나의 학문이며 빅데이터 분석이 중요한 현대 과학에 있어 상당히 중요한 위치를 차지하고 있습니다. 만약 특정 바이러스에 관심이 있다고 한다면 그 바이러스에 대한 특징에 대한 분석과 이해를 어떤 방법으로 접근하겠는가? 실험실에 찾아가서 하거나 바이러스의 샘플을 받아서 실험을 해야 하는데 일반인들이 그 실험을 하기에는 쉽지 않은 상황이다. 만약 감염이라도 된다면?
그래서 바이러스에 대하여 온라인으로 접속해서 시스템적으로 분석하고 접근하는 방법이 필요합니다. 그것이 바로 생명정보학입니다. 결과를 빠르고 안전하게 확인할 수 있다. 가끔, fold-it(단백질 접는 프로그램)과 같이 단백질 구조 예측도 합니다.
Solve Puzzles for Science | Foldit
Hey folks! New Office Hour happening this Friday, July 15th at 10 AM MT (4 PM GMT). It will be led by horowsah. Please feel free to bring questions about reconstruction puzzles, trim tool, and education mode/educational uses. (Wed, 07/13/2022 - 13:05 |
fold.it
지금까지 여러 가지 바이러스를 실험해보고 결과를 비교 분석해 본 경험적으로 볼 때 연구의 한계는 있지만 어떤 바이러스의 특이성을 알아내거나 성향을 예측하거나 하는 연구가 괜찮은 내용으로 진행되었던 부분도 있습니다. 바이러스의 유사성을 찾아내기도 했던 점도 있으며 단백질 3차 구조를 예측하기도 했던 실험도 있었고, 딥러닝 알고리즘을 이용해서 영상정보를 분석한 실험도 있었습니다.
구글 연구 논문 참고 (링크)
생명정보학을 학습하기 위해서는 몇 가지 원칙을 가지고 접근해야 합니다.
첫 번째로는 유전체에 대한 이해가 있어야 합니다. DNA와 RNA 바이러스의 차이점과 내피와 외피 바이러스의 의미에 대한 것은 기본적인 것은 알고 있어야 하지 않을까요.
두 번째로는 기본적인 알고리즘에 대한 이해가 있어야 한다. 블라스트(Blast)에서 서열 비교를 하는데 이 서열비교는 상당히 기본적인 알고리즘입니다. clustal-o (http://www.clustal.org/omega/) 라는 프로그램으로도 다중 서열 비교를 해야 하는데 알고리즘의 목적과 이유를 알아야 하고, 차후 Hidden Markov Model(HMM)을 사용해서 유사성에 대하여 결과를 나타내야 하는데 알고리즘을 이해하지 못한다면 결과를 해석하지 못하는 어려움이 있습니다. 자주 쓰이는 알고리즘으로는 Decision Tree, Neural Network Support Vector Machine 등이 있습니다.
세 번째로 이전 연구에 대한 이해를 가지고 접근해야 합니다. 최근 들어 바이러스는 10년 주기로 창궐한다. 아마 꽤 오래전부터 그래 왔을 텐데 현대 과학 기술로 지금에서야 밝혀지는 사건이라고 할까요. 과거에는 몰랐을 수도 있었을 것입니다. 원래부터 바이러스는 주기적으로 인류 문명을 위협했습니다. 과거 중세를 뒤흔들었던 흑사병인 페스트가 그랬고 근대에 들어와서는 스페인 독감(H1N1)이 2009년에 있었던 신종플루가 그랬었고, 지금은 코로나19(COVID-19)가 펜데믹을 일으키고 있습니다.
지금 상황에서 밝혀지는 바이러스 데이터는 한계점이 있습니다. 과거에 발생했던 바이러스 데이터와 비교해 보면서 실험을 하는 것이 비교 분석 실험에 있어서 상당히 완성도가 높은 결과를 나타낼 수 있습니다. 그렇기에 이전 연구에 대해 이해해야 합니다.
연구의 한계점
바이오인포매틱스의 연구만으로는 바이러스의 본질적인 실체와 서열 구조상의 분석 한계로 인해 원인과 백신과 치료제를 만들기도 어렵고 불가능합니다. 바이러스 자체가 변이가 많아 그 특이점을 찾기도 쉽지 않습니다. 분자생물학적인 지식과 계통수를 이용한 유전적 지식을 함양해서 접근해야 합니다. 연구의 한계점은 있습니다.
서열정보
서열에 대한 정보는 웹사이트를 통해 제공이 된다. 일반적인 Flat file 형태로 제공이 되는데 이 파일을 통해 분석하는 과정을 거칩니다. 오래전부터 Primary Database 시스템을 이용해서 Genbank, Protein Data Bank (PDB), Eoropean Molecular Biology Laboratory(EMBL) 데이터베이스와 일본 DNA Data Bank(DDBJ)에서 서열정보를 제공하고 있으며 조금 더 파생해서 가공된 서열정보를 제공하는 Secondary Database인 UNI PROT (SWISS PROT)이나 Protein Information Resource (PIR)에서 HIV 서열이나 Ribosomal Databases 등의 내용을 제공하고 있습니다.
'생명정보학 & 화학정보학 > NCBI와 블라스트' 카테고리의 다른 글
단순 서열정렬, 갭 패널티 (0) | 2022.09.15 |
---|---|
바이러스 분류 (1) | 2022.08.29 |
H1N1 시리즈 분석 (0) | 2022.08.01 |
PAM과 BLOSUM (0) | 2021.11.01 |
서열분석 - Needleman Wunsch algorithm (0) | 2021.09.27 |