일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 블록체인
- 딥러닝
- AP Computer Science A
- 행렬
- 시그모이드
- MERS
- 바이오인포매틱스
- 캐글
- Java
- AP
- 인공지능 수학
- 오류역전파
- 생명정보학
- 이항분포
- bioinformatics
- 결정트리
- 인공신경망
- SVM
- Kaggle
- CNN
- 바이오파이썬
- ncbi
- 생물정보학
- BLaST
- COVID
- 파이썬
- 자바
- 알파폴드
- 인공지능
- 서열정렬
- Today
- Total
데이터 과학
PAM과 BLOSUM 본문
서열 정렬
서열 정렬 및 데이터베이스 검색 프로그램에서는 정렬을 통해 문자값을 가지고 비교하며 이에 대해 점수표(Scoring Matirix)를 활용하는 방법을 사용합니다.
방법1. 행렬의 점수를 정수 값으로 설정하고 동일하거나 유사한 쌍(pair)에는 양수가 부여되고 유사하지 않은
쌍(pair)은 음수 또는 0점을 부여합니다.
방법2. 일치성에 대한 점수를 설정하기는 방법으로는 문자가 일치 할때는 점수 1점을 부여하고 일치하지 않으면
점수 0점을 부여 합니다.
방법3. DNA 점수 반영에서 점수를 만들어 낼때는 일치성을 3, 번역(transition) 2 점과 transversions 에서는 0점을
설정합니다.
방법4. 단백질에서는 화학적 유사성 점수를 반영해야 하는데 유사한 화학적 고유 특성을 가진 아미노산에 더 큰
가중치를 부여합니다.
이런 여러가지 방법을 통해 점수를 할당하는 방법을 사용합니다.
아미노산에서는 특정 아미노산이 발생하는 빈도와 친밀도에 따라 점수를 반영합니다. 아미노산들에서의 관찰된 친밀도가 높은 부분에 점수를 높여서 나타내는데 로그값을 이용해서 확률로 표현하기도 합니다.
다음은 가장 대표적으로 사용하고 있는 PAM 및 BLOSUM 행렬(Matrix)에 대한 설명입니다.
PAM
Point Accepted Mutations 의 약자로 Margaret Dayhoff와 동료들이 개발했습니다. 매우 유사한 서열(최소 85% 동일성)의 전역 정렬에서 파생되므로 관찰된 변화가 여러 연속 돌연변이의 결과일 가능성이 높지만 하나의 돌연변이만 반영해야 합니다. PAM - 포인트 허용 돌연변이.
단백질에서 허용되는 점 돌연변이는 자연 선택에 의해 허용되는 한 아미노산을 다른 아미노산으로 대체하는 것입니다. 이는 두 가지 별개의 프로세스의 결과입니다. 첫 번째는 단백질의 한 아미노산을 생성하는 유전자 주형 부분에 돌연변이가 발생하는 것입니다. 두 번째는 종에 의한 돌연변이를 새로운 우세한 형태로 받아들이는 것입니다. 새로운 아미노산이 받아들여지기 위해서는 일반적으로 기존 아미노산과 유사한 방식으로 기능해야 합니다. 즉, 자주 교환되는 것으로 관찰되는 아미노산 간에 화학적 및 물리적 유사성이 발견됩니다.
Dayhoff는 밀접하게 관련된 단백질에서 관찰된 치환으로부터 돌연변이 비율을 추정하고 먼 관계를 모델링하기 위해 그 비율을 외삽했습니다. PAM은 주어진 확률을 제공합니다. 아미노산은 주어진 진화 간격(이 경우 100개 아미노산당 1개의 점 돌연변이 허용) 동안 다른 특정 아미노산으로 대체됩니다.
단백질 비교에 사용하는 경우 돌연변이 확률(odds) 행렬이 정규화되고 로그가 취해집니다. (이렇게 하면 확률을 곱하는 대신 단백질을 따라 점수를 더할 수 있습니다.) 결과 행렬은 PAM 행렬로 알려진 "log-odds" 행렬입니다.
행렬이 있는 숫자(PAM120, PAM90)는 진화 거리를 나타냅니다. 숫자가 클수록 거리가 더 큽니다. PAM250을 유도하려면 PAM1에 250배를 곱합니다. PAM250은 250개의 PAM이 있는 시퀀스에서 파생된 행렬입니다.
이 진화적 거리에서 5개 중 1개 아미노산만 변하지 않고 남아 있습니다. 그러나 아미노산은 변이가 매우 다양합니다. 트립토판의 55%, 시스테인의 52%, 글리신의 27%는 여전히 변하지 않을 것이지만 매우 변이가 심한 아스파라긴의 6%만이 남게 됩니다. 여러 다른 아미노산, 특히 알라닌, 아스파라긴산, 글루탐산, 글리신, 라이신 및 세린은 이러한 진화적 거리에서 아스파라긴 자체보다 원래의 아스파라긴 대신 발생할 가능성이 더 높습니다!
PAM 행렬의 계열은 비교적 적은 수의 계열에서 파생되었기 때문에 가능한 돌연변이가 많이 관찰되지 않았습니다.
이후 연구에서는 많은 수의 유전적 관계성을 조사하여 업데이트된 매트릭스를 도출하고 PET91 스코어링 매트릭스를 만들었던 연구도 있습니다. (Jones et al. )
PAM 매트릭스는 멀리 떨어져 있는 시퀀스를 찾기 위해 최적화된 알고리즘입니다.
https://en.wikipedia.org/wiki/Point_accepted_mutation
Point accepted mutation - Wikipedia
An example of point mutations at an amino acid site coding for lysine. The missense mutations may be classed as point accepted mutations if the mutated protein is not rejected by natural selection. A point accepted mutation — also known as a PAM — is t
en.wikipedia.org
BLOSUM Matrices
BLOck SUbstitution Matrix
Henikoff & Henikoff에 의해 생성되었으며, 서열의 지역 다중 정렬을 기반으로 합니다.
첫째, 서열을 모아서 각 정렬에서 동일성 확률값을 측정하여 유사한 서열을 그룹으로 클러스터링 하고 평균을 만들어 냅니다.
둘쩨, 아미노산 쌍에 대한 치환 빈도는 그룹 별로 계산을 하며 log-odds BLOSUM을 생성하는 데 이용합니다.
BLOSUM62라는 서열의 의미는 이 블록에 클러스터링된 서열이 62% 이상 동일함을 의미합니다.
매트릭스를 만들때 블록에서 관련 있는 서열을 만들어서 사용하기에 거리가 먼 서열정보를 찾아내서 반영을 하는 방법입니다. 이에 대부분의 프로그램에서 기본값은 BLOSUM62를 사용합니다.
전역 정렬의 경우 PAM 행렬을 사용하는 경향이 있으며 낮은 값의 PAM 행렬은 매우 유사한 영역의 짧은 정렬을 찾는데 적합합니다. 높은 점수의 PAM 매트릭스는 서열의 유사성은 약하지만 긴 정렬을 찾는데 적합합니다.
지역 정렬을 위해 BLOSUM 행렬을 사용하는것이 좋습니다. 높은 점수가 있는 BLOSUM 행렬은 유사 정렬에 대한 것으로 가까운 값을 찾을때 유리하며 낮은 숫자의 BLOSUM 행렬은 먼 서열을 찾을 때 사용하는 점수표입니다.
결론적으로 관련된 서열의 전역 정렬을 수행할 때 PAM200 또는 PAM250 사용하는것이 좋으며 기본값은 PAM120을 사용합니다.
로컬 데이터베이스 스캔(예: 블라스트)정도의 로컬 정렬의 경우 BLOSUM62(단백질에 권장) 서열을 선택해서 사용합니다.
https://ko.wikipedia.org/wiki/BLOSUM
BLOSUM - 위키백과, 우리 모두의 백과사전
ko.wikipedia.org
'생명정보학 & 화학정보학 > NCBI와 블라스트' 카테고리의 다른 글
바이오인포매틱스 개요 (0) | 2022.08.29 |
---|---|
H1N1 시리즈 분석 (0) | 2022.08.01 |
서열분석 - Needleman Wunsch algorithm (0) | 2021.09.27 |
블라스트와 MEGA-X 염기서열 분석 비교 관련 (0) | 2021.06.11 |
COVID19 는 어디에서 왔을까? (feat. NCBI와 블라스트 ) (0) | 2021.05.23 |