[Module3] ML개론 PART3 최근 LLM

LG Aimers

메델 2024. 1. 9. 16:12

GPT-3와 InstructGPT의 가장 큰 차이점은 모델에게 직접적으로 지시할 수 있냐 없냐

GPT-3 모델은 InstructGPT 모델로 만들기 위해 RLHF(reinforcement learning with human feedback) 적용

지시문을 따라 결과를 완성하는 초기 모델 완성

→ 사람의 feedback을 모사하는 reward model 확보

→ 초기 모델이 사람이 더 선호하는 결과를 추론하도록 강화학습 진행

multimodal language model
이미지, 텍스트 입력을 받고 텍스트 결과를 낸다
2023년 3월 14일에 발표
Bing과 같은 Microsoft의 상품에 쓰이는 중
예전에는 디테일 발표했는데 이제는 연구에서 상품이 되어서 기술적 디테일을 공개하지 않음
GPT-3.5 같은 경우에는 4096개의 토큰을 기반으로 해서 Output을 내다보니 그전에 사용자와 대화한 것을 잊는 것, GPT-4의 경우 32768개의 토큰까지 됨(Context Length가 빠르게 증가함을 알 수 있다)
GPT-3.5는 하위 10% → GPT-4.0 상위 10%

[Module3] ML개론 PART2 Bias and Variance (0)	2024.01.11
[Module3] ML개론 PART1 Introduction to ML (0)	2024.01.11
[Module1] AI 윤리 PART3 세계적인 데이터 과학자가 되는 방법 (0)	2024.01.06
[Module1] AI 윤리 PART2 인공지능 알고리즘과 윤리 이슈 (1)	2024.01.06
[Module1] AI 윤리 PART1 데이터 분석과 AI학습에서 유의할 점 (1)	2024.01.04

메델_project

컴퓨터공학 전공/ TIL 위주로 작성합니다

메델_project