| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 블록체인
- 결정트리
- Kaggle
- 이항분포
- 바이오파이썬
- 자바
- 파이썬
- 인공지능
- SVM
- 서열정렬
- 생물정보학
- BLaST
- COVID
- 바이오인포매틱스
- ncbi
- CNN
- Java
- bioinformatics
- 오류역전파
- AP
- 생명정보학
- MERS
- 인공신경망
- 캐글
- 인공지능 수학
- 딥러닝
- AP Computer Science A
- HMM
- RNN
- 시그모이드
- Today
- Total
데이터 과학
제프리 힌튼, 요슈아 벤지오, 얀 르쿤과 챗GPT 원리 본문
제프리 힌튼(Jeffrey Hinton), 요슈아 벤지오(Yoshua Bengio), 얀 르쿤(Yann LeCun)은 현재 딥 러닝 분야에서 가장 영향력 있는 연구자 중 일부입니다. 이들은 각자의 분야에서 지속적인 연구와 개발로 딥 러닝 분야의 발전에 큰 영향을 미치고 있습니다.
제프리 힌튼은 딥 러닝 분야의 대표적인 연구자 중 한 명으로, 역전파(backpropagation) 알고리즘과 Boltzmann machine, deep belief networks, capsule networks 등 다양한 딥 러닝 모델의 개발에 큰 기여를 했습니다. 특히, 역전파 알고리즘을 이용한 딥 러닝 모델의 학습 방법을 개발하면서, 딥 러닝 분야의 대표적인 선구자 중 한 명으로 평가받고 있습니다.
https://brunch.co.kr/@hvnpoet/46
꺼져가는 인공지능을 되살린 제프리 힌튼
[야만인] 인공지능 탄생의 뒷이야기 | 로젠블랫 Frank Rosenblatt 의 단순 퍼셉트론으로는 XOR 문제를 해결할 수 없다는 증명으로 많은 연구 후원자들이 떠났습니다. 죽어가던 신경망 연구를 살리고
brunch.co.kr
https://ko.wikipedia.org/wiki/%EC%A0%9C%ED%94%84%EB%A6%AC_%ED%9E%8C%ED%84%B4
요슈아 벤지오는 딥 러닝 분야에서 자연어 처리, 이미지 처리, 음성 처리 등 다양한 분야에서 기여를 했습니다. 특히, Word2vec, attention mechanism, neural machine translation 등 딥 러닝 모델의 학습 및 처리 방법 개발에 큰 역할을 했습니다. 또한, 벤지오는 딥 러닝 연구를 보다 폭넓은 분야로 확장시키기 위해 MILA(Montreal Institute for Learning Algorithms)를 설립하고, 다양한 연구자들과 협력하여 지속적인 연구와 개발을 이끌고 있습니다.
https://brunch.co.kr/@hvnpoet/79
딥러닝을 만들어낸 요슈아 벤지오
[야만인] 인공지능 탄생의 뒷이야기 | 요슈아 벤지오 Yoshua Bengio 1964년 프랑스 파리 출생 1991년 맥길 McGill 대학교 컴퓨터공학 박사학위 1992년 MIT에서 박사후연구원 1993년 몬트리올대학교 교수 2018
brunch.co.kr
얀 르쿤은 합성곱 신경망(Convolutional Neural Network, CNN)의 개발과 이미지 인식 분야에서의 성과로 유명합니다. CNN은 이미지 처리 분야에서 높은 성능을 보이며, 딥 러닝 분야에서 큰 역할을 했습니다. 르쿤은 이외에도 LeNet, Gradient-Based Learning Applied to Document Recognition 등 다양한 딥 러닝 모델 및 알고리즘 개발에 기여하고 있으며, NYU에서 AI 연구를 수행하고 있습니다.
http://computing.or.kr/14825/yann-lecun%EC%96%80-%EB%A5%B4%EC%BF%A4/
Yann LeCun(얀 르쿤)
얀 르쿤은 프랑스계 미국인으로 기계 학습, 컴퓨터 비전, 모바일 로봇 공학 및 전산 신경 과학 분야를 연구하는 컴퓨터 과학자입니다. 뉴욕대학의 교수, 그리고 페이스북의 AI 수장으로 일하고
computing.or.kr
챗GPT 원리
ChatGPT는 Transformer 아키텍처를 기반으로 하는 대규모 언어 모델 중 하나입니다. 이 모델은 자연어 처리(Natural Language Processing, NLP) 분야에서 다양한 태스크, 예를 들면 문장 생성, 기계 번역, 질의응답 시스템 등을 수행하는 데 사용됩니다.
ChatGPT의 핵심 아이디어는 "사전 학습(pre-training)"이라는 개념입니다. ChatGPT는 대규모 텍스트 데이터셋에서 미리 학습된 모델로, 이 데이터셋은 인터넷 상의 대규모 문서, 뉴스 기사, 책 등 다양한 말뭉치(corpus)를 포함합니다. 이렇게 사전 학습된 모델은 실제 응용 분야에서 사용되기 전에 미리 학습되므로, 응용 분야에서 보다 적은 양의 데이터로 더 높은 성능을 발휘할 수 있습니다.
ChatGPT 모델은 각각의 입력 토큰(token)에 대해 임베딩(Embedding)을 수행하고, 이를 Transformer Encoder 레이어로 전달합니다. Encoder 레이어는 입력 문장의 모든 단어를 바탕으로 문맥을 파악하고, 각각의 단어를 표현하는 벡터를 생성합니다. 이를 바탕으로 모델은 문장의 다음 단어를 예측하는 작업을 수행합니다.
ChatGPT는 또한 "Self-Attention"이라는 메커니즘을 사용합니다. Self-Attention은 입력 시퀀스의 모든 단어가 서로 상호작용하도록 하는 방식으로, 입력 시퀀스 내의 각 단어가 문맥적으로 중요한 역할을 하는 정도를 고려합니다. 이를 통해 모델은 문장 내의 단어 간의 의미 관계를 파악하고, 보다 정확한 문맥을 파악할 수 있습니다.
ChatGPT는 여러 레이어로 구성된 Transformer 아키텍처를 사용하며, 각 레이어는 입력 시퀀스의 문맥을 보다 잘 파악하기 위해 적응적으로 학습됩니다. 이러한 다층 Transformer 아키텍처를 통해 ChatGPT는 더 복잡한 언어 표현을 학습할 수 있습니다.
Beam Search
Beam Search는 기계 번역, 질의 응답 시스템, 자연어 생성 등에서 자주 사용되는 탐색 알고리즘 중 하나입니다. 이 알고리즘은 가능한 모든 문장을 생성하는 것이 아니라, 가장 가능성이 높은 일부 문장만을 선택하여 출력합니다. 이를 통해 연산 비용을 줄이면서도 높은 품질의 결과를 생성할 수 있습니다.
Beam Search는 일종의 휴리스틱(heuristic) 탐색 알고리즘으로, 가능한 모든 경우의 수를 따져보는 완전 탐색(exhaustive search)과 같은 방식으로 동작하지 않습니다. 대신, 모델이 생성한 각각의 토큰(token)에 대해 가장 가능성이 높은 K개의 후보를 유지하고, 이를 바탕으로 다음 토큰을 예측합니다.
Beam Search는 일종의 트리(tree) 구조로, 각각의 노드(node)는 모델이 생성한 토큰과 해당 토큰이 생성될 확률을 나타냅니다. 이때, 루트(root) 노드는 시작 토큰이고, 리프(leaf) 노드는 문장의 끝을 나타내는 토큰입니다. 이 구조에서 Beam Search는 루트 노드에서부터 리프 노드까지 가능한 경로 중 가장 가능성이 높은 K개의 경로를 유지합니다.
Beam Search에서 K는 Beam Size 또는 Beam Width라고도 불리며, 이 값이 클수록 높은 품질의 문장을 생성할 가능성이 높아지지만, 연산 비용도 증가합니다. 일반적으로 K는 5-10 정도로 설정하며, 이 값을 조정하면서 최적의 성능을 찾아내는 것이 중요합니다.
Beam Search의 단점 중 하나는, 모델이 생성할 수 있는 모든 문장을 고려하지 않기 때문에, 최적의 해를 보장하지는 않는다는 점입니다. 또한, 일부 경우에는 일부 후보들이 지나치게 비슷한 문장을 생성하는 경우가 있을 수 있습니다. 이러한 경우에는 다양한 문장을 생성할 수 있는 다른 알고리즘을 사용해 볼 수도 있습니다.
https://littlefoxdiary.tistory.com/4
자연어 생성에서의 Beam Search / 파이썬으로 Beam Search 구현하기
자연어 생성 모델 자연어 생성은 단어들의 시퀀스를 아웃풋으로 예측해내는 태스크이다. 일반적으로 생성 모델은 각각의 디코딩 타임 스텝에서 전체 단어 사전에 대한 확률 분포를 예측한다.
littlefoxdiary.tistory.com
'인공지능 > 기초 인공신경망' 카테고리의 다른 글
| 기초인공신경망 - 미분 개요 (0) | 2023.04.03 |
|---|---|
| 기초 인공신경망 - 순방향 네트워크 (0) | 2023.03.29 |
| 인공신경망에서 행렬 (0) | 2023.03.21 |
| 인공신경망과 자바 예제 (0) | 2023.03.19 |
| 인공지능 기호주의와 연결주의 (1) | 2023.03.16 |