[Google Study Jam - Beginner] 02. Introduction to LLMs
Define Large Language Models (LLMs)
: ์ ํํ์ต ํ ํน์ ๋ชฉ์ ์ ๋ง๊ฒ ์ธ๋ถ ์กฐ์ ํ ์ ์๋ ๋๊ท๋ชจ ๋ฒ์ฉ ์ธ์ด ๋ชจ๋ธ
01. Fine-tuning ์ด๋ ?
(1) ๋ฒ์ฉ ์ธ์ด ๋ชจ๋ธ : ์
๊ณ ์ ๋ฐ์ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ๋ จ๋ ๋ชจ๋ธ
- ex) text classification, question answering, document summarization, text generation
(2) fine tuning
- ํ์ํ ์ด์ : ๋ค์ํ ๋ถ์ผ์ ํน์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ์ ๋ง์ถคํํ๊ณ ์ ํจ
- ๋ฐฉ๋ฒ : ์๋์ ์ผ๋ก ์์ dataset์ ์ฌ์ฉํ์ฌ, ๋ฒ์ฉ ์ธ์ด๋ชจ๋ธ์ ๋ง์ถคํ
- ๋ถ์ผ : retail, finance, entertainment ๋ฑ
02. LLMs์ ์ฃผ์ ํน์ง
(1) Large
- Large training dataset + large number of parameters ์ ์๋ฏธ
- parameters (=hyperparameters) : memories and knowledge that machine learned from the modle training
→ define the skill of a model in solving a problem
(2) general purpose
- model์ด ์ผ๋ฐ์ ์ธ ๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ถฉ๋ถํ๋ค
- commonality of human languages : ๊ณตํต์ ์ผ๋ก ์ ์ฉ๋๋ ์ธ๊ฐ ์ธ์ด์ ๊ณตํต์ฑ
- resource restriction : huge dataset๊ณผ ์์ฒญ๋ ์์ parameters๋ก llm์ ํ๋ จ์ํฌ ์ ์๋ ์ญ๋์ ๊ฐ์ถ ์กฐ์ง์ ๊ทน์์์ ๋ถ๊ณผํจ
→ ๊ทน์์์ ์กฐ์ง์ด ๋ค๋ฅธ ์ฌ๋๋ค์ด ์ฌ์ฉํ ์ ์๋ ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ค ์ ์์ง ์์๊น?
(3) pre-rained and fine-tuned
: ๋๊ท๋ชจ ๋ฐ์ดํฐ ์งํฉ์ ์ฌ์ฉํ LLMs๋ฅผ pretraining ํ, ์๋์ ์ผ๋ก ์์ dataset์ ์ฌ์ฉํด ํน์ ๋ชฉ์ ์ ๋ง๊ฒ fine-tuning ์งํ
03. ํ์ต
(1) ๋ฐ์ดํฐ : ํํ๋ฐ์ดํธ๊ธ ๋ฐ์ดํฐ๋ก ํ์ต
(2) ์์ฑ๋๋ ํ๋ผ๋ฏธํฐ ๊ฐ์ : ์์ญ์ต ๊ฐ
Descrive LLM use cases : ์ฌ๋ก
01. ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ด์
(1) ํ๋์ ๋ชจ๋ธ์ ์ธ์ด ๋ฒ์ญ๊ณผ ๋ฌธ์ฅ ์์ฑ, ํ ์คํธ ๋ถ๋ฅ ์ง์ ์๋ต ๋ฑ ๋ค์ํ ์์ ์ ์ฌ์ฉํ ์ ์์
(2) ์ต์ํ์ ํ๋ ํ์ต ๋ฐ์ดํฐ๋ก๋ ๋ชจ๋ธ์ ์กฐ์ ํ์ฌ ํน์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ ๊ฐ๋ฅ
- ๋ถ์ผ๋ณ ํ์ต ๋ฐ์ดํฐ๊ฐ ๊ฑฐ์ ์์ด๋ ์ํธํ ์ฑ๋ฅ์ ์ป์ ์ ์์
- few-shot, zero-shot ์๋๋ฆฌ์ค์๋ ์ฌ์ฉ๊ฐ๋ฅํ๋ค
- few-shot : ์ต์ํ์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ
- zero-shot : ์ด์ ํ์ต์์ ๋ช ์์ ์ผ๋ก ํ์ตํ์ง ์์ ๊ฒ์ ๋ชจ๋ธ์ด ์ธ์ํ๋ค๋ ์๋ฏธ
(3) ๋ฐ์ดํฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ ๋ง์ด ์ถ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ๊ณ์ ๋ ํฅ์๋จ
02. transformer model ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋จ
- encodr-decoder ๊ตฌ์กฐ (encoding component + decoding component)
Generative AI
: ์ฌ์ฉ์๊ฐ ์์ ๋ง์ ์ฝํ ์ธ ๋ฅผ ์์ฑํ ์ ์๋ค๋ ๊ฒ์
Gemini & LaMDA
- ์ธํฐ๋ท์ ์ฌ๋ฌ ์์ค์์ ๋งค์ฐ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ํ์ด๋ฐ์ด์ ์ธ์ด ๋ชจ๋ธ์ ๋น๋ํจ
- ์ฌ์ฉ์ : ์ง๋ฌธ๋ง ํ๋ฉด ์ด ๋ชจ๋ธ์ ๋ฐ๋ก ์ฌ์ฉ ๊ฐ๋ฅ
→ ๋ต๋ณ : ํ์ตํ ๋ชจ๋ ๊ฒ์ ์๋ ค์ค
→ ์ง๋ฌธ์ ํ๋กฌํํธ ์ ๋ ฅ, ์์ฑ ์ผ๋ก ๊ฐ๋ฅ
LLM ๊ฐ๋ฐ vs ML ๊ฐ๋ฐ
: ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฐ๋ฐ vs ํ์ต๋์ง ์๋ ๋ชจ๋ธ ๊ฐ๋ฐ
- LLM ๊ฐ๋ฐ
- ์ ๋ฌธ๊ฐ๊ฐ ์๋์ฌ๋ ๊ฐ๋ฅ
- ํ์ต์์๊ฐ ํ์ํ์ง ์์
- ๋ชจ๋ธ์ ํ์ต์ํฌ ํ์๊ฐ ์์
- ๋ช ํํ๊ณ ๊ฐ๊ฒฐ
- ํ๋กฌํํธ ์ค๊ณ์ ๋ํด์๋ง ์๊ฐํ๋ฉด ๋จ ⇒ ์ ์ฉํ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ํ๋ก์ธ์ค ์ค๊ณ
- ๊ธฐ์กด ๋จธ์ ๋ฌ๋ ๊ฐ๋ฐ ⇒ ์๊ตฌ์ฌํญ์ด ํจ์ฌ ๋ง์
- ์ ๋ฌธ ์ง์ ํ์
- ํ์ต ์์ ํ์
- ์ปดํจํ ์๊ฐ ๋ฐ ํ๋์จ์ด ํ์
ํ ์คํธ ์์ฑ์ ์ฌ์ฉํ ์ฌ๋ก : QA (Question Answering)
: ์์ฐ์ด์ฒ๋ฆฌ์ ํ์๋ถ์ผ / ์์ฐ์ด๋ก๋ ์ง๋ฌธ์ ์๋์ผ๋ก ๋๋ตํ๋ ์๋ต์ ์ฒ๋ฆฌ
QA system
- ๋๋์ ํ ์คํธ์ ์ฝ๋๋ก ํ์ต๋จ
- ์ฌ์ค, ์ ์, ์๊ฒฌ์ ๋ฐํ์ผ๋ก ํ ๊ด๋ฒ์ํ ์ง๋ฌธ์ ๋ตํ ์ ์์
⇒ ๋ถ์ผ๋ณ ์ง์์ด ์์ด์ผ ์ง์ ์๋ต ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์์์ง๋ง ํ์ฌ๋ ์๋
⇒ ์์ฑํ QA ์ฌ์ฉ์, ๋ชจ๋ธ์ด ์ปจํ ์คํธ ๊ธฐ๋ฐ์ ์์ ํ ์คํธ๋ฅผ ์ง์ ์์ฑํ์ฌ ๋๋ฉ์ธ ์ง์์ด ํ์ํ์ง ์์
⇒ ์ํ๋ ๋๋ต์ ์ป์ ์ ์์๋ ์ด์ : ํ๋กฌํํธ ์ค๊ณ
ํ๋กฌํํธ ์ค๊ณ & ํ๋กฌํํธ ์์ง๋์ด๋ง
- ๊ณตํต์
- ์์ฐ์ด์ฒ๋ฆฌ์์ ์๋ก ๋ฐ์ ํ๊ฒ ์ฐ๊ฒฐ๋ ๊ฐ๋ ๋ค์
- ๋ช ํํ๊ณ ๊ฐ๊ฒฐํ๋ฉฐ ์ ์ฉํ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ํ๋ก์ธ์ค๋ฅผ ํฌํจํจ
- ์ฐจ์ด์
- ํ๋กฌํํธ ์ค๊ณ(prompt design) : ์์คํ
์์ ์ํํด์ผํ๋ ํน์ ์์
์ ๋ง๊ฒ ์กฐ์ ๋ ํ๋กฌํํธ๋ฅผ ๋ง๋๋ ๊ณผ์
- ์ผ๋ฐ์ ์ธ ๊ฐ๋ ์ ๊ฐ๊น์
- ex) ์์ด ํ ์คํธ๋ฅผ ํ๋์ค์ด๋ก ๋ฒ์ญํด ๋ฌ๋ผ๊ณ ์์ฒญํ ๋ ํ๋กฌํํธ๋ ์์ด๋ก ์์ฑํ๊ณ ๋ฒ์ญ ํ ์คํธ๋ ํ๋์ค์ด๋ก ์ง์
- ํ์์ ์ธ ๊ณผ์ - ํ๋กฌํํธ ์์ง๋์ด๋ง : ์ฑ๋ฅ์ ๊ฐ์ ํ๋๋ก ์ค๊ณ๋ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ํ๋ก์ธ์ค
- ๋ถ์ผ๋ณ ์ง์์ ์ฌ์ฉ + ์ํ๋ ์ถ๋ ฅ์ ์์๋ฅผ ์ ๊ณต + ํน์ ์์คํ ์ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ์๋ ค์ง ํค์๋๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ํฌํจ
- ๊ณ ๋์ ์ ํ์ฑ์ด๋ ์ฑ๋ฅ์ ์ํ๋ ์์คํ ์๋ง ํ์
- ์ ๋ฌธ์ ์ธ ๊ฐ๋
- ํ๋กฌํํธ ์ค๊ณ(prompt design) : ์์คํ
์์ ์ํํด์ผํ๋ ํน์ ์์
์ ๋ง๊ฒ ์กฐ์ ๋ ํ๋กฌํํธ๋ฅผ ๋ง๋๋ ๊ณผ์
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ 3๊ฐ์ง ์ข ๋ฅ
: ์ผ๋ฐ ์ธ์ด ๋ชจ๋ธ / ์กฐ์ ๋ ๋ช ๋ น / ์กฐ์ ๋ ๋ํ (generic language models / instruction-tuned / dialog-tuned
Generic (or raw) language models
: predict the next word (technially, token) based on the language in the training data

- ex ) 'the cat sat on' ๋ค์์๋ 'the'๊ฐ ์ฌ ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ฅ ํฌ๋ค
→ ๊ฒ์์ '์๋ ์์ฑ' ๊ธฐ๋ฅ
instruction-tuned
: trained to predict a response to the instructions given in the input

- ex) 'x'์ ํ ์คํธ๋ฅผ ์์ฝํ๊ณ 'x' ์คํ์ผ์ ์๋ฅผ ์์ฑํ๋ฉฐ 'x'์ ๋ํ ์๋งจํฑ ์ ์ฌ์ฑ์ ๋ฐํ์ผ๋ก ํค์๋ ๋ชฉ๋ก์ ์์ฑํด๋ฌ๋ผ๊ณ ๋ช ๋ น
→ ํ ์คํธ๋ฅผ ์ค๋ฆฝ, ๋ถ์ ๋๋ ๊ธ์ ์ผ๋ก ๋ถ๋ฅ
dialog-tuned
: trained to have a dialog by predicting the next response
- instruction-tuned ๋ชจ๋ธ์ ํน์ํ ์ฌ๋ก
- requests : typically framed as a question to a chat bot
- dialog tuning : ๊ธด ๋ํ๊ฐ ์ค๊ฐ๋ ๋งฅ๋ฝ์์ ์ด๋ฃจ์ด์ง
- ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ๊ณผ ๊ฐ์ ๋ฌธ๊ตฌ์ ํจ๊ณผ์ ์ผ๋ก ์๋
text-specific tuning
01. CoT (์๊ฐ์ ์ฐ์ ์ถ๋ก )
: ๋ชจ๋ธ์ด ๋๋ต์ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ช ํ๋ ํ ์คํธ๋ฅผ ๋จผ์ ์ถ๋ ฅํ ๋, ์ ๋ต์ ๋ ์ ์ฐพ๋๋ค๋ ๊ด์ฐฐ ๊ฒฐ๊ณผ์ ๊ด๋ จ์๋ค.
(1) ์ง๋ฌธ : ํ ๋์ค ๊ณต 5๊ฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ก์ ๊ฐ ํ ๋์ค ๊ณต 2์บ์ ๋ ์๋๋ฐ ๊ฐ ์บ์ ํ ๋์ค ๊ณต์ด 3๊ฐ ๋ค์ด์๋ค๋ฉด,
๋ก์ ๋ ์ง๊ธ ๋ช ๊ฐ์ ํ ๋์ค ๊ณต์ ๊ฐ์ง๊ณ ์์๊น?
- 1๋ฒ์งธ ์ง๋ฌธ : ๋๋ต์ด ์๋ ์ํ → ๋ชจ๋ธ : ์ ๋ต์ ๋ฐ๋ก ์๋ ค์ค ๊ฐ๋ฅ์ฑ์ด ๋ฎ์
- 2๋ฒ์งธ ์ง๋ฌธ : ์ ๋ต์ด ์ถ๋ ฅ๋ ๊ฐ๋ฅ์ฑ์ด ๋ ์ปค์ง
02. ํน์ง
(1) ์ฃผ์์ฌํญ : ๋ชจ๋ ๊ฒ์ ํ ์ ์๋ ๋ชจ๋ธ์๋ ํ์ค์ ์ธ ํ๊ณ๊ฐ ์กด์ฌ
(2) text-specific tuning์, LLMs์ ์ ๋ขฐ์ฑ ์์น
03. Model Garden task-specific models


04. Tuning
: ๋ชจ๋ธ์์ ์ํํด์ผํ ์์ ์ ์๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ tuningํ์ฌ ๋๋ต์ ๋ง์ถค์ค์ ํจ
(1) ๊ณผ์ : ์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต → ์๋ก์ด ๋ถ์ผ ๋๋ custom ์ฌ์ฉ์ ๋ง๊ฒ ๋ชจ๋ธ์ ์กฐ์
(2) Example : ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ๋ฒ๋ฅ ๋๋ ์๋ฃ ๋ถ์ผ์ ๋ง๊ฒ ๋ชจ๋ธ์ '์กฐ์
(3) Fine-tuning : ์์ฒด ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ฐ์ ธ์ LLM์ ๋ชจ๋ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ์ฌ ๋ชจ๋ธ์ ์ฌํ์ต
- ๋๊ท๋ชจ ํ์ต ์์ ๊ณผ ์์ฒด์ ์ผ๋ก ์ธ๋ถ ์กฐ์ ๋ ๋ชจ๋ธ์ ํธ์คํ ์ด ํ์
- ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ํ์ค์ ์ด์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์
(4) Parameter-efficient tuning methods (PETM)
: ๋ชจ๋ธ์ ๋ณต์ ํ ํ์ ์์ด ์์ฒด ์ปค์คํ ๋ฐ์ดํฐ๋ก ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์กฐ์
- ๊ธฐ๋ณธ ๋ชจ๋ธ ์์ฒด๋ ๋ณ๊ฒฝ X
- ๋ถ๊ฐ๊ธฐ๋ฅ ๋ ์ด์ด ๋ช ๊ฐ๋ฅผ ์กฐ์ ํ๊ณ ์ถ๋ก ์์ ์ ์ด๋ฅผ ๊ต์ฒด