GPT-1
보이기
원저자 | OpenAI |
---|---|
발표일 | June 2018년 |
저장소 | |
대체된 소프트웨어 | GPT-2 |
종류 | |
라이선스 | MIT[1] |
웹사이트 | openai![]() |
기계 학습과 데이터 마이닝 |
---|
![]() |
GPT-1(Generative Pre-trained Transformer 1)은 2017년 구글이 트랜스포머 아키텍처를 발명한 이후 OpenAI의 첫 번째 대규모 언어 모델이었다. 2018년 6월, OpenAI는 "생성적 사전 학습을 통한 언어 이해 향상"이라는 제목의 논문을 발표했는데, 이 논문에서 생성적 사전 학습된 트랜스포머의 일반적인 개념과 함께 이 초기 모델을 소개했다.
그때까지 가장 성능이 좋은 신경 NLP 모델은 주로 수동으로 레이블이 지정된 대량의 데이터에서 지도 학습을 사용했다. 지도 학습에 대한 이러한 의존성은 주석이 잘 되어 있지 않은 데이터 세트의 사용을 제한했을 뿐만 아니라, 매우 큰 모델을 학습하는 데 엄청나게 비용이 많이 들고 시간이 많이 걸렸다. 많은 언어(예: 스와힐리어 또는 아이티 크리올어)는 코퍼스 구축에 사용할 수 있는 텍스트가 부족하여 이러한 모델을 사용하여 번역하고 해석하기 어렵다. 이와 대조적으로 GPT의 "반지도" 접근 방식은 두 단계로 구성된다. 언어 모델링 목표를 사용하여 초기 매개변수를 설정하는 비지도 생성 "사전 학습" 단계와 이러한 매개변수를 대상 작업에 맞게 조정하는 지도 판별 "미세 조정" 단계이다.
주의 증강 RNN을 포함하는 이전 기술과 달리 트랜스포머 아키텍처를 사용하면 GPT (언어 모델) 모델에 반복적 메커니즘을 통해 달성할 수 있는 것보다 더 구조화된 메모리가 제공된다. 이를 통해 "다양한 작업에서 강력한 전송 성능"이 실현되었다.