데이터 과학

Kaggle에서 바이오파이썬 본문

생명정보학 & 화학정보학/바이오파이썬

Kaggle에서 바이오파이썬

티에스윤 2022. 9. 20. 17:07

Kaggle에서도 바이오파이썬에 대해 소개를 하고 있습니다.

하지만, 아직은 바이오인포매틱스 관련 콘텐츠는 올라오고 있지는 않습니다. 

바이오인포매틱스 커뮤니티 만들어 달라고 요청하는 분이 계시긴 합니다. 조만간 만들어지지 않을까 합니다. 

 

아래 예제가 바이오파이썬에 대해 정리해 놓은 예제입니다. 

 

 

https://www.kaggle.com/code/shtrausslearning/biopython-bioinformatics-basics/notebook

 

Biopython | Bioinformatics Basics

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

간단하게 소스 내용을 살펴보면 다음과 같습니다. 

 

 

import os
import numpy as np
import pandas as pd
from Bio.pairwise2 import format_alignment
from Bio.SubsMat import MatrixInfo 
from Bio import pairwise2
from Bio import SeqIO, SearchIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML

from Bio.Phylo.TreeConstruction import DistanceTreeConstructor
from Bio.Phylo.TreeConstruction import DistanceCalculator
from Bio.Phylo.PhyloXML import Phylogeny
from Bio import Phylo

from pprint import pprint
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style='white')
blast_id = True

 

위에 있는 라이브러리를 전부 지정해 줘야 하는데 에러 메시지가 나온다고 하면 바이오파이썬이 설치가 안된 겁니다. 

설치부터 진행합시다. 

 

 

 

https://tsyoon.tistory.com/11?category=997717 

 

바이오 파이썬 설치 방법

바이오 파이썬 설치 방법에 대한 안내 Anaconda 기준으로 설명 1. Anaconda를 설치 한다. 2. 주피터 노트북을 실행한다. 아나콘다 설치와 주피터 노트북은 파이썬 사용자라면 기본적으로 설치가 되어

tsyoon.tistory.com

 

 

설치 이후에 위 캐글에 있는 예제를 한번 따라 해 보면서 바이오 파이썬에 대한 기본적인 내용을 학습해 봅시다. 

관련된 내용은 아래 파일로 첨부 합니다. 

 

 

https://www.kaggle.com/code/shtrausslearning/biological-sequence-alignment

 

Biological Sequence Alignment

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

 

KAGGLE NOTEBOOKS:

Getting Started with Biopython - By Miles O'Neill
https://www.kaggle.com/code/mylesoneill/getting-started-with-biopython

Gene Ontology Python Tutorial - By Alexander Chervov
https://www.kaggle.com/code/alexandervc/gene-ontology-python-tutorial

Biopython | Bioinformatics Basics - By Andrey Shtrauss
https://www.kaggle.com/code/shtrausslearning/biopython-bioinformatics-basics

Bioconductor | Bioinformatics Basics - By Andrey Shtrauss - R code
https://www.kaggle.com/code/shtrausslearning/bioconductor-bioinformatics-basics

Starter Notebook for END ALS (Kaggle Challenge) - By Paul T. Mooney
https://www.kaggle.com/code/paultimothymooney/starter-notebook-for-end-als-kaggle-challenge

ALS Challenge Task 1 - By Randy Williams
https://www.kaggle.com/code/rwilliams7653/als-challenge-task-1/notebook

KAGGLE DATASETS:

Genes information - Dataset by Alexander Chervov
https://www.kaggle.com/datasets/alexandervc/genes-information

Sequence GenBank - Dataset by Andrey Shtrauss
https://www.kaggle.com/datasets/shtrausslearning/biopython-genbank

KAGGLE COMPETITIONS:

End ALS Kaggle Challenge
https://www.kaggle.com/datasets/alsgroup/end-als

Open Problems - Multimodal Single-Cell Integration
https://www.kaggle.com/competitions/open-problems-multimodal

Novozymes Enzyme Stability Prediction
https://www.kaggle.com/competitions/novozymes-enzyme-stability-prediction/overview

Discussion Topic:

Though we don't have communities, the topic below include many Bioinformatics sources:

Please create "Bioinformatics" "community" By Alexander Chervov
https://www.kaggle.com/general/203136

 

 

 

 

참고: https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/discussion/402597

 

'생명정보학 & 화학정보학 > 바이오파이썬' 카테고리의 다른 글

UPGMA 계통수  (0) 2023.05.28
Kaggle에서 서열 정렬과 계통수  (0) 2022.11.01
KEGG  (0) 2022.08.10
바이오파이썬 서열정렬 예제  (0) 2022.08.03
phylip 계통수  (0) 2022.04.29