๋™์•„๋ฆฌ,ํ•™ํšŒ/GDGoC

[AI ์Šคํ„ฐ๋””] Section 4 :๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํ•  ๋ฐ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ

egahyun 2024. 12. 26. 05:10

๊ณผ์ ํ•ฉ(overfitting)

: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด์ง€๋งŒ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ

   = ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ๋„ˆ๋ฌด ๋ณต์žกํ•ด์„œ ์‹ค์ œ์™€ ๋ฌด๊ด€ํ•œ noise๊นŒ์ง€ ํ•™์Šตํ•˜๊ฒŒ ๋œ ๊ฒฝ์šฐ

   = Training data์— ๋น„ํ•ด Test data์˜ ์—๋Ÿฌ์šธ์ด ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฝ์šฐ

       ⇒ ํŠธ๋ ˆ์ธ ์…‹์— ๊ณผ์ ํ•ฉ ๋˜์—ˆ๋‹ค

       ⇒ High Variance Model (๊ณ ์ฐจ์› ๋ชจ๋ธ)

๊ณผ์†Œ์ ํ•ฉ (underfitting)

: ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด์„œ ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋˜์–ด์žˆ๋Š” ํŒจํ„ด์„ ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํ•˜ ํ•™์Šตํ•  ์ˆ˜ ์—†์–ด ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ ์ˆ˜์šฉ์„ ํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ

   = ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด ๋ฐ์ดํ„ฐ์˜ ์ค‘์š” ๋ถ€๋ถ„์„ ๋†“์น˜๋Š” ๊ฒƒ

       ⇒ High bias Model

 

๋ชจ๋ธ์˜ ๋ณต์žก๋„์™€ ์„ฑ๋Šฅ

: ์‹ค์งˆ์ ์œผ๋กœ ํ•œ์ •๋œ ๋ฐ์ดํ„ฐ ๋‚ด์—์„œ ์˜ค๋ฒ„ํ”ผํŒ…๋˜์ง€ ์•Š๊ฒŒ ํ•˜๋ฉด์„œ bias์™€ variance๋ฅผ ๋‚ฎ์ถ”๊ณ ์ž ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์•„์•ผํ•จ

 

 => ์ด์œ  : Bias-Vaiance Trade-off (Bias-Vaiance dilemma)

  • ๋ชจ๋ธ์ด ๋ณต์žกํ•ด์งˆ ์ˆ˜๋ก ํ›ˆ๋ จ๋ฐ์ดํ„ฐ ์—๋Ÿฌ๋Š” ๊ณ„์† ๊ฐ์†Œ
  • ์–ด๋А์ •๋„ ์ง€๋‚˜๋ฉด ํ…Œ์ŠคํŠธ ์—๋Ÿฌ๋Š” ์ฆ๊ฐ€ํ•จ : ๊ณผ์ ํ•ฉ

๋จธ์‹ ๋Ÿฌ๋‹์˜ error source

1. Variance

 : ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์ฐจ์ด์— ์˜ํ•œ ์—๋Ÿฌ

   = ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์™€ ๋‹ฌ๋ฆฌ ํ•™์Šต๋ฐ์ดํ„ฐ๋ฅผ ์ผ๋ถ€ ๋ถ„ํฌ์—์„œ๋งŒ ์ƒ˜ํ”Œ๋งํ•œ ๊ฒฝ์šฐ

 

2. Bias

  : Approximation model๊ณผ true function์˜ ์ฐจ์ด์— ์˜ํ•œ ์—๋Ÿฌ

    = ๊ทผ์‚ฌ์น˜๋กœ ๋งŒ๋“ค์–ด๋‚ธ ํ•จ์ˆ˜์™€ ์‹ค์ œ ์ฐพ๊ณ ์ž ํ•˜๋Š” ํ•จ์ˆ˜(์šฐ๋ฆฌ๊ฐ€ ๊ตฌํ•˜๊ณ  ์‹ถ์€๊ฑฐ์ง€ ์•„๋ฌด๋„ ์ด๊ฑด ๋ชจ๋ฆ„)๊ฐ„์˜ ์ฐจ์ด

  • ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ๋งŽ์ด ๋ฒ—์–ด๋‚œ ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ง„์งœ ์ด์ƒ์น˜์ธ๊ฐ€, ๋ชจ๋ธ์˜ ์ด์ƒ์€ ์•„๋‹Œ์ง€ ํŒ๋‹จ ํ•„์š”
  • ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•  ์ˆ˜๋ก ๊ฐ‘์ž๊ธฐ ์—๋Ÿฌ๊ฐ€ ๋งŽ์ด ์ฐจ์ด ๋‚˜๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ์กฐ๊ธˆ์”ฉ ๋‹ค ์ฐจ์ด๋‚˜๊ฒŒ ๋จ                                                                     ⇒ ์ด์ƒ์น˜ ์ •๋„์˜ ๋งŽ์ด ์ฐจ์ด๋‚˜๋Š”๊ฒŒ ์ข‹์€์ง€ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธก์€ ์•ˆ๋˜๋Š”๊ฒŒ ์ข‹์€์ง€๋Š” ์ƒํ™ฉ์— ๋”ฐ๋ผ ๋‹ค๋ฆ„

3. noise์— ์˜ํ•œ ์—๋Ÿฌ ⇒ ์ œ๊ฑฐ ๋ถˆ๊ฐ€ (์ œ๊ฑฐํ•  ์ˆ˜ ์—†๊ธฐ ๋–„๋ฌธ์— ์•ˆ๊ณ  ๊ฐ€์•ผํ•จ)

 

variance ์ค„์ด๋Š” ๋ฐฉ๋ฒ•

: ๋ฐ์ดํ„ฐ ์…‹์˜ ํฌ๊ธฐ ๋Š˜๋ฆฌ๊ธฐ ⇒ ์ „์ฒด์ ์œผ๋กœ ๋Š˜๋ฆฌ๊ธฐ (๋ถ„ํฌ๋ฅผ) / ๋‹ค๋‹ค์ต์„ ์ž„. / infinite data sampling

bias ์ค„์ด๋Š” ๋ฐฉ๋ฒ•

: ๋ชจ๋ธ์˜ ๋ณต์žก๋„ ์˜ฌ๋ฆฌ๊ธฐ / true function์„ ์•Œ๊ณ ์žˆ๊ธฐ(์‹คํ˜„ ๋ถˆ๊ฐ€)  → ๋ณต์žก๋„ ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ๋ฒ• : ๋ชจ๋ธ ์ƒ์„ฑ์‹œ, ์กฐ์ •ํ•˜๊ธฐ


๊ฐ„์ ‘์ ์œผ๋กœ ์ข‹์€ ๋ชจ๋ธ ํ™•์ธ ํ•˜๋Š” ๋ฐฉ๋ฒ•

1. ํ•„์š”ํ•œ ์ด์œ  : ํ˜„์‹ค์—์„œ๋Š” infinite data sampling๊ณผ true function์„ ์•Œ ์ˆ˜ ์žˆ์„ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ

2. ์ข…๋ฅ˜ : cross validation / precision, recall, f1-score

training, testing, cross-validation set

⇒ ์„ธ๊ฐœ๋กœ ๋‚˜๋ˆ„๋Š”๊ฒŒ ๊ฐ€์žฅ idealํ•จ

 

1. training set (ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์šฉ)

: ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š”๋ฐ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ ⇒ ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ํŠธ๋ ˆ์ด๋‹ ์…‹๊ณผ ์ƒ์ดํ•  ๊ฒฝ์šฐ ๋ฌธ์ œ๊ฐ€ ์žˆ์Œ

2. testinig set (ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์šฉ)

: ๋ฏธ๋ž˜์˜ ์ผ์–ด๋‚  ๋ฐ์ดํ„ฐ์ธ๊ฒƒ ์ฒ˜๋Ÿผ ๊ฐ„์ฃผ

๋‘ ๋ฐ์ดํ„ฐ ์…‹์˜ ๋ฐ์ดํ„ฐ๋Š” ์„ž์ด๋ฉด ์•ˆ๋˜๊ณ  ๋™์ผํ•œ ๋ถ„ํฌ๋ฅผ ์œ ์ง€ํ•ด์•ผํ•จ
⇒ ๋™์ผํ•œ ๋ถ„ํฌ๊ฐ€ ์•„๋‹ˆ๋ผ๋ฉด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์…‹์ž„

 

3. cross validation (๊ต์ฐจ๊ฒ€์ฆ) (ํผํฌ๋จผ์Šค ๋งคํŠธ๋ฆญ์Šค ๊ณ„์‚ฐ์šฉ)

(1) ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ : ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์ถฉ๋ถ„ํ•  ๋•Œ

(2) ๋ฐฉ๋ฒ• : ํ›ˆ๋ จ ์…‹์„ ์—ฌ๋Ÿฌ๊ฐœ์˜ sub set์œผ๋กœ ๋‚˜๋ˆ„๊ณ  ๊ฐ ๋ชจ๋ธ์„ ์ด ์„œ๋ธŒ์…‹์˜ ์กฐํ•ฉ์œผ๋กœ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์œผ๋กœ ๊ฒ€์ฆ

(3) ex - 5๊ฐœ์˜ ์„œ๋ธŒ์…‹์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค

     ⇒ 4๊ฐœ : ํ›ˆ๋ จ์šฉ, 1๊ฐœ : ๊ฒ€์ฆ์šฉ

      ๋ฃจํ”„๋ฅผ ๋Œ๋ฆด ๋–„ ๋งˆ๋‹ค ๊ฐ๊ฐ ๋‹ค๋ฅธ ์„œ๋ธŒ์…‹์ด ๊ฒ€์ฆ์šฉ์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ํ•จ ⇒ ์„ž์ด์ง€ ์•Š๊ณ  ๋™์ผํ•œ ๋ถ„ํฌ์ž„

      ์ด ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท  ๋ƒ„


ํŽธํ–ฅ๋œ ๋ฐ์ดํ„ฐ์˜ ๋ชจ๋ธ ํผํฌ๋จผ์Šค

ํ˜ผ๋™ํ–‰๋ ฌ

: ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ ํผํฌ๋จผ์Šค๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฆฌ๋Š” ๊ฒƒ

 

1. ์ „์žฌ ์ƒํ™ฉ : ์ •์ƒ๊ณผ ๋น„์ •์ƒ์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Œ (๋ ˆ์ด๋ธ”๋ง ํ•  ์ˆ˜ ์žˆ์Œ)

2. ๋ถ„๋ฅ˜

 =>์ œ๋Œ€๋กœ ๋ถ„๋ฅ˜ํ•œ๊ฒƒ : TP, TN / ์˜ค๋ถ„๋ฅ˜ํ•œ๊ฒƒ : FP, FN

               ์˜ˆ์ธก๊ฐ’
์‹ค์ œ ์ •๋‹ต
O X  
O TP (true positive) FP (false positive) Precision
X FN (false negative) TN (true negative)  
  Recall    

 

3. ์ •ํ™•๋„ (classification rate) (accuracy)

: ๋‹จ์ˆœ ์ •ํ™•์„ฑ → ์ „์ฒด ๋ฐ์ดํ„ฐ ์ค‘ ์ œ๋Œ€๋กœ ๋ถ„๋ฅ˜๋œ ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ

  • ๊ณต์‹ : $\frac{(TP + TN)}{(TP+TN+FP+FN)}$
  • ๋ฌธ์ œ์  : 99%๊ฐ€ positive, 1%๊ฐ€ negative ์ธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์—์„œ, ์ „์ฒด๋ฅผ positive๋กœ ์˜ˆ์ธกํ•  ๊ฒฝ์šฐ                                                                negative๋Š” ํ•˜๋‚˜๋„ ๋งž์ถ”์ง€ ๋ชปํ–ˆ์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ 99%๋กœ ๋†’๊ฒŒ ๋‚˜์˜จ๋‹ค

 

4. ์ •๋ฐ€๋„ (precision)

: ๋ชจ๋ธ์ด ์ด ์ƒ˜ํ”Œ์„ true๋กœ ๋ถ„๋ฅ˜ํ–ˆ์„ ๋•Œ, ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋งž์ถ”์—ˆ๋Š”๊ฐ€? (= positive๋กœ ๋ถ„๋ฅ˜ํ–ˆ์„ ๋•Œ์˜ ์ •ํ™•์„ฑ ์ธก์ •)

  • ๊ณต์‹ : $\frac{TP}{(TP+FP)}$
  • ํŠน์ง• : 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ข‹์Œ
  • ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ : ๋ถ„๋ฅ˜ํ•œ ์ผ€์ด์Šค๊ฐ€ ์ •ํ™•ํžˆ ๊ฒ€์ถœ๋˜๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ (= confidence ์ˆ˜์ค€ ์˜ฌ๋ฆฌ๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ)
  • Example : ํฌ๋ฅด๋…ธ ์˜์ƒ ๊ฒ€์ถœ๊ธฐ - ํฌ๋ฅด๋…ธ๋กœ ๋ถ„๋ฅ˜ํ–ˆ์„ ๋–„ ์‹ค์ œ ํฌ๋ฅด๋…ธ์ธ ๋น„์œจ

 

5. ๋ฏผ๊ฐ๋„ (recall)

: ์ „์ฒด positive ๋ฐ์ดํ„ฐ ์ค‘ positive๋กœ ๋ถ„๋ฅ˜ํ•œ ๋น„์œจ

  • ๊ณต์‹ : $\frac{TP}{(TP+FN)}$
  • ํŠน์ง• : 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ข‹์Œ
  • ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ : positiveํ•œ ์ผ€์ด์Šค๋ฅผ ๋†“์น˜๊ณ  ์‹ถ์ง€ ์•Š์€ ๊ฒฝ์šฐ → ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•œ๊ฒŒ ๋งŽ์•„๋„ ๋˜๋‹ˆ๊นŒ ๋‹ค ์žก์•„๋‚ด๊ธฐ
  • EXAMPLE : ํฌ๋ฅด๋…ธ ์˜์ƒ ๊ฒ€์ถœ๊ธฐ - ์ „์ฒด ํฌ๋ฅด๋…ธ ์ค‘ ํฌ๋ฅด๋…ธ๋กœ ๋ถ„๋ฅ˜๋œ ๋น„์œจ

 

Precision, recall trade off

  1. threshold : ๊ธฐ์ค€์น˜ → ๋ช‡ ํ”„๋กœ๋งŒ ๋„˜์œผ๋ฉด ํ•ด๋‹น ๊ฐ’์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ฒ ๋‹ค
    • ex) threshold = 50%์ผ ๋•Œ, 5์ผ ํ™•๋ฅ ์ด 49%๋ฉด 5๊ฐ€ ์•„๋‹ˆ๋‹ค.
    • threshold๊ฐ€ ๋‚ฎ์Œ ⇒ precision ๋‚ฎ์Œ, recall ๋†’์Œ
    • threshold๊ฐ€ ๋†’์Œ ⇒ precision ๋†’์Œ, recall ๋‚ฎ์Œ
  2. F1 ์Šค์ฝ”์–ด (์กฐํ™”ํ‰๊ท )
    • ๊ณต์‹ : $2*\frac{Precision \ * \ recall}{Precision\ + \ recall}$
    • ์„ฑ๋Šฅ : 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ข‹์Œ → Precision == recall == 1 ์ธ ๊ฒฝ์šฐ์— ๊ฐ€๊นŒ์šด ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ
    • ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ : ์ „์ฒด์  ์„ฑ๋Šฅ ์ธก์ •์— ํ™œ์šฉ
  3. ROC Curve (Receiver Operating Characterisitc Curve) (์ˆ˜์‹ ์ž ์กฐ์ž‘ ํŠน์„ฑ ๊ณก์„ ) (=ROC AUC)
    • X์ถ• : FPR (= $\frac{FP}{(FP+TN)}$ = negative๋ฅผ positive๋กœ ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•œ ๋น„์œจ)
    • y์ถ• : TPR (= $\frac{TP}{(TP+FN)}$ = recall )
    • ์ง์„  ์•„๋ž˜๋กœ๋Š” ์•ˆ๋‚ด๋ ค๊ฐ
    • ์„ฑ๋Šฅ : ๋ฉด์ ์ด ๋„“์„ ์ˆ˜๋ก ์ข‹์Œ ⇒ roc_auc_score๋กœ ๋ถ„๋ฅ˜๊ธฐ๊ฐ„์˜ ์„ฑ๋Šฅ ๋น„๊ต ๊ฐ€๋Šฅ