| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 생물정보학
- HMM
- AP Computer Science A
- COVID
- 결정트리
- Java
- MERS
- ncbi
- RNN
- 바이오파이썬
- 인공지능
- Kaggle
- 서열정렬
- 인공신경망
- bioinformatics
- 시그모이드
- 생명정보학
- 캐글
- CNN
- 오류역전파
- 블록체인
- 이항분포
- SVM
- AP
- 자바
- 바이오인포매틱스
- 인공지능 수학
- BLaST
- 딥러닝
- 파이썬
- Today
- Total
데이터 과학
후천성면역결핍증(Acquired Immune Deficiency Syndrome) 본문
후천성면역결핍증, 제가 오래전부터 연구해 왔던 분야로 관련 논문이 여러 편이 있는 주제입니다.
밝혀진 서열이 얼마 없어 비교가 쉽지 않고, 일정한 패턴이 있다라고 보기 어려울 정도로 난해한 바이러스이며
레트로, 렌티영역에서 여러 바이러스와 비슷한 서열도 가지고 있습니다.
비교 연구를 한 결과 어느 정도의 특징은 나타나기도 하고, 서열의 비선형성에 대한 의미도 파악할 수 있는 바이러스입니다. 치료제가 얼마 전 코로나 바이러스 치료제로도 사용은 되었는데 플라시보 효과로 인하여 그 결과는 미비 한 정도였다고 합니다.
HIV Databases
Sequence Database Lead Scientist Position We invite applications for a scientist in virology, epidemiology, bioinformatics, and molecular evolution, to begin as early as summer 2024. The HIV Databases at Los Alamos National Lab are funded by the NIH/NIAID
www.hiv.lanl.gov
AIDS에 대한 개요입니다.
에이즈(AIDS)는 신체를 전염병의 위험에 빠뜨리는 병원체를 죽이는 면역체계의 능력을 상실한 이차적 후천성 면역결핍 상태를 말합니다.
AIDS는 역전사를 통해 숙주 세포에서 무기한 복제되어 인간의 면역 체계를 파괴하는 바이러스인 HIV에 의해 발생합니다. 역전사에는 돌연변이 가능성이 높기 때문에 HIV의 레트로바이러스 감염은 다루기 어렵고 약물 내성이 있어 단일의 장기간 지속되는 백신으로 AIDS를 치료하기 어렵게 만드는 특성이 있습니다.
더욱이 HIV-1은 다양한 실험에서 치료가 시도된 반면, HIV-2는 서아프리카에 국한되어 있어 임상 연구의 주요 주제가 아니었고 많은 환자들이 가상 치료를 받지 못한 채 방치되었습니다. 대체적으로 HIV 연구는 아프리카의 두 가지 주요 변종인 HIV-1과 HIV-2 간의 유전적 비교를 이끌어내는 것을 목표로 합니다. 의사결정나무(Decision Tree)와 서포트 벡터 머신(SVM)을 통해 두 바이러스 게놈의 아미노산 서열을 분석한 연구도 있으며 이러한 분석은 각 균주의 특징적인 위치에 있는 아미노산에 대한 정보를 제공함으로써 백신 제조에 대한 생물학적으로 검증 가능한 지침을 제공합니다. 이러한 데이터를 비교하면 지리적 분포의 차이를 설명할 수도 있습니다.
HIV 관련 연구 요약 -
HIV는 역전사를 통해 숙주 세포에서 DNA 복사본을 만들어 스스로 복제하는 바이러스 계열인 Retroviridae에 속합니다. 체액을 통해 전염되며 주로 성적 접촉과 임신 중 수직 전염을 통해 전염됩니다.
HIV의 가장 흔한 변종인 HIV-1은 전세계 HIV 감염의 95%를 차지합니다. 이는 일반 침팬지(Common Chimpanzee)에서 유래되었습니다. HIV-1은 잠복기가 짧기 때문에 더욱 독성이 강하고 전염성이 높습니다. 반면 HIV-2는 주로 세네갈, 나이지리아 등 서아프리카 국가에 집중되어 있습니다. 그것은 수티 망가베이(Sooty MANGABEY)에서 유래되었습니다. 잠복기가 길기 때문에 HIV-2는 병원성이 낮고 전염성이 낮으며 AIDS로의 진행이 더 느립니다. 두 유형 모두 동일한 감염 방식과 연관되어 있으며, 이를 통해 바이러스는 숙주 세포의 CD4 수용체에 결합하여 세포가 용해 주기를 거치도록 촉발합니다.
(역자 주: CD4는 적응면역 단계에서 일어나는 문제점들이 있기에 CD4 수용체 결합은 면역제어가 문제가 있다는 내용입니다. ) 둘 다 gag, env 및 tat 유전자를 포함하여 동일한 기본 유전자 배열을 갖고 있으며 특정 아미노산 서열의 차이로 인해 지리적 분포가 다를 수는 있습니다
HIV 분석하는 알고리즘 -
결정 트리와 지지 벡터 머신(SVM)에서의 연구를 진행합니다. 원천 데이터를 포함하여 결정 트리 및 SVM 방법을 사용하여 HIV-1 및 HIV-2의 아미노산 서열을 분석합니다.
인공지능 알고리즘인 결정트리는 아미노산의 위치와 유형을 연관시키는 각 계통의 규칙을 생성합니다. 빈도가 높은 규칙만 추가 분석 대상으로 선택됩니다. 이러한 규칙에서는 빈도뿐만 아니라 전체 적용 범위와 긍정적 적용 범위 및 전체 정확도도 분석됩니다. 이 과정을 통해 규칙의 영향력과 적법성을 파악할 수 있으며, 이를 통해 어떤 규칙이 실제로 생물학적 의미를 갖는지 파악하는 보다 엄격한 기준을 제공할 수 있습니다.
9 window에서는 HIV에 대해 하나의 주요 규칙을 발견하였습니다. 그러나, HIV-2에서의 규칙은 정확도는 높은 결과가 나왔지만 규칙에 대한 효용성을 낮게 보입니다. 규칙이 전체 데이터 세트의 작은 부분에만 적용된다는 의미이며, 유효성에 있어서 의심이 될 정도로 규칙 횟수가 적습니다.
13 window에서는 총 5개의 규칙이 검색됩니다. 그러나 HIV-2의 세 번째 규칙 역시 높은 정확성과 빈도에도 불구하고 적용 범위가 상당히 낮습니다. 따라서 찾아낸 규칙들은 영향력이 있다고 할 수 없습니다.
19 window에서도 총 5개의 규칙이 발견되었으며, HIV-1의 두 번째 규칙은 적용 범위가 낮아 영향력이 적습니다. 다른 규칙은 높은 전체 적용 범위와 긍정적인 적용 범위를 고려할 때 완전히 영향력이 있는 것으로 볼 수 있으며 정확도도 상당히 높습니다. 이에 대한 결과로 볼 때 HIV-1과 HIV-2의 아미노산 패턴이 다르며 거리감이 있다고 할 수 있습니다.
Support Vector Machine은 주로 두 가지 분석 방법으로 사용됩니다. 첫 번째 실험에서는 정규식, 다항식, RBF, 시그모이드의 4가지 커널에서 서포트 벡터의 개수와 정확도를 설정합니다. 서포트 벡터의 수는 데이터를 분리할 수 있는 다양한 방법의 수를 나타내므로 서포트 벡터의 수가 적으면 두 균주가 명확하게 분리될 수 있음을 확인했습니다.
이 과정을 통해 HIV-1과 HIV-2 사이의 관계가 선형인지 비선형인지 알아낼 수 있습니다. 결과는 비선형 커널인 다항식과 RBF가 분류에서 더 나은 것으로 나타났습니다. 반면, 선형 정규 커널은 적합하지 않으며, 모양 자체는 비선형이지만 그래픽 특성이 오히려 선형처럼 행동하는 시그모이드 커널도 그리 적합하지 않은 결과를 나타냈습니다.
결론적으로 두 바이러스 사이의 관계는 비선형적인 것으로 입증되었으며, 이는 HIV-1과 HIV-2의 차이가 피상적인 분석으로는 관찰되지 않을 수 있지만 오히려 보다 철저한 분리 수단이 필요함을 시사합니다.
두 번째 실험에서는 SVM을 사용하여 의사결정나무의 규칙을 검증했습니다. 선형 정규 커널과 비선형 다항식 커널에서 제공되는 예측 값을 사용하여 규칙의 중요성을 찾는 과정입니다. 특정 규칙이 예측값이 높다면 해당 규칙이 데이터 세트에 자주 등장하여 영향력이 크다는 것을 의미합니다. 예측값의 평균 비교를 통해 적법한 규칙의 검증은 Decision Tree의 결과와 일치하는 것으로 입증되었습니다.
동일한 커널의 다른 규칙에 비해 9window HIV-2 규칙, 13 window 세 번째 HIV-2 규칙, 19 window 두 번째 HIV-2 규칙의 평균 예측 값이 낮았습니다. 이러한 규칙은 의사결정나무에서 적용 범위가 상당히 낮은 것으로 밝혀졌습니다.
전반적으로 이 연구는 이전 논문에서 발견된 규칙의 타당성을 좀 더 나타냈습니다.
규칙의 영향을 테스트하기 위해 좁은 기준을 제공하고 더 많은 수의 통계 값을 구현함으로써 연구에서는 적용 범위가 낮고 예측 값이 낮은 특정 규칙을 제거하고 특이성을 나타내는 다른 규칙을 나타냈습니다.
이러한 연구는 효과적인 백신을 만드는 데 어떤 아미노산을 고려해야 하는지에 대한 정보를 제공할 수 있습니다.
이 내용에 대한 페이퍼는 다음과 같습니다.
https://link.springer.com/chapter/10.1007/978-3-319-42291-6_39
https://youtu.be/EGfMRVBDxaY?si=JLnHxrfiaKo8gq40