๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์ธํ„ฐ๋ทฐ(2)

2020. 11. 1. 01:44ใ†Computer Science/Machine Learning๐Ÿ’ป

  • Bias์™€ Variance์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€?

Bias๋ž€ ๋ฐ์ดํ„ฐ ๋‚ด์— ์žˆ๋Š” ๋ชจ๋“  ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ์œผ๋กœ ์ธํ•ด ์ง€์†์ ์œผ๋กœ ์ž˜๋ชป๋œ ๊ฒƒ๋“ค์„ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์˜๋ฏธํ•œ๋‹ค.

Variance๋ž€ ๋ฐ์ดํ„ฐ ๋‚ด์— ์žˆ๋Š” ์—๋Ÿฌ๊นŒ์ง€ ๋ชจ๋‘ ๊ณ ๋ คํ•จ์œผ๋กœ ์ธํ•ด ์‹ค์ œ ํ˜„์ƒ๊ณผ ๊ด€๋ จ์—†๋Š” ๊ฒƒ๊นŒ์ง€ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์˜๋ฏธํ•œ๋‹ค. 

bias(ํŽธํ–ฅ)์ด ๋†’๋‹ค๋Š” ๊ฒƒ์€ ์‹ค์ธก์น˜์™€ ์˜ˆ์ธก์น˜๊ฐ„์˜ ์˜ค์ฐจ๊ฐ€ ๋ฒŒ์–ด์ง„ ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, Variance(๋ถ„์‚ฐ)์ด ๋†’๋‹ค๋Š” ๊ฒƒ์€ ์˜ˆ์ธก์˜ ๋ฒ”์œ„๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.  ์ฆ‰, bias๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€ ๊ณผ์†Œ์ ํ•ฉ(underfitting, ๊พธ์ค€ํžˆ ํ‹€๋ฆฌ๋Š” ์ƒํ™ฉ)์ด๋ฉฐ Variance๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€ ๊ณผ๋Œ€์ ํ•ฉ(Overfitting, ์˜ˆ์ธก์˜ ๋ถ„ํฌ๊ฐ€ ํฐ ์ƒํ™ฉ)์ž„์„ ์˜๋ฏธํ•œ๋‹ค. 

๋ชจ๋ธ์— ์žˆ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•™์Šต์‹œํ‚ค์ง€ ์•Š์„ ๊ฒฝ์šฐ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•ด Bias๊ฐ€ ์ปค์งˆ ๊ฒƒ์ด๊ณ ,  ๋ฐ์ดํ„ฐ๋ฅผ ๊ณผ๋‹คํ•˜๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ๊ฒฝ์šฐ ๋…ธ์ด์ฆˆ๊นŒ์ง€ ์ „๋ถ€ ํ•™์Šตํ•˜๊ฒŒ ๋˜์–ด Variance๊ฐ€ ๋†’์•„์ง„๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. 

๋”ฐ๋ผ์„œ, bias์™€ variance๋Š” trade-off๊ด€๊ณ„์ด๋‹ค. 

 

 

Bias&Variance trade off relation graph

 

 

์•„๋ž˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด ์‰ฝ๊ฒŒ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

 

 

 

 

underfitting์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๋Œ€๋กœ ํ•™์Šตํ•˜์ง€ ๋ชปํ•ด ๋ชจ๋ธ์˜ ๋ณต์žก๋„๊ฐ€ ๋–จ์–ด์ง€๊ณ (์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๋Œ€๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๋Š” ์ƒํ™ฉ),  overfitting์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณผ๋‹คํ•˜๊ฒŒ ํ•™์Šตํ•ด ๋ชจ๋ธ์˜ ๋ณต์žก๋„๊ฐ€ ๋†’์•„์ง„ ๋ชจ์Šต์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.(test set์ด ์•„๋‹Œ ํƒ€ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๋Š” ์ƒํƒœ)

 

  • overfitting์„ ์–ด๋–ป๊ฒŒ ํ”ผํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

cross validation ํ˜น์€ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ์˜ ํ•™์Šต, feature ์‚ญ์ œ, regularization, Data augmentation ๋“ฑ์ด ์žˆ๋‹ค.

 

  • cross validation์ด๋ž€?

๊ณ ์ •๋œ test set์„ ๊ฐ€์ง€๊ณ  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ™•์ธํ•˜๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์น˜๋‹ค๋ณด๋ฉด ๋ชจ๋ธ์ด test set์— ๊ณผ๋‹ค์ ํ•ฉ๋˜๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— cross-validation์ด ๋‚˜ํƒ€๋‚˜๊ฒŒ ๋˜์—ˆ๋‹ค. 

๋ฐ์ดํ„ฐ ์…‹์„ k๊ฐœ์˜ subset์œผ๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ subset๋‚ด์—์„œ test set๊ณผ training set์œผ๋กœ ๋‚˜๋ˆˆ ํ›„ ์ค‘๋ณต์—†์ด ๋ฐ”๊พธ์–ด๊ฐ€๋ฉฐ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค. ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์…‹์„ ํ‰๊ฐ€์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ๋ถ€์กฑ์œผ๋กœ ์ธํ•œ underfitting์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. ํŠนํžˆ K-Fold cross validation์€ ๊ฐ ๋ฐ˜๋ณต์‹œ test set์„ ๋‹ค๋ฅด๊ฒŒ ํ• ๋‹นํ•˜์—ฌ K๊ฐœ์˜ ๋ฐ์ดํ„ฐํด๋“œ ์„ธํŠธ๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

 

 

 

K-Fold cross validation

 

 

classification์—๋Š” stratified K-Fold cross validation์ด ์žˆ๋‹ค.

 

 

stratified cross validation

 

 

์ฃผ๋กœ ๋ถ„๋ฅ˜๋ฌธ์ œ์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, label์˜ ๋ถ„ํฌ๊ฐ€ ๊ฐ ํด๋ž˜์Šค๋ณ„๋กœ ๋ถˆ๊ท ํ˜•์„ ์ด๋ฃฐ๋•Œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋œ๋‹ค.





์ด์™€ ์ƒ๋ฐ˜๋œ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” Hold out ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

 

 

holdout

 

 

holdout์€ train๊ณผ test set์˜ ๋น„์œจ์„ 9:1 ํ˜น์€ 7:3 ๋น„์œจ๋กœ ๋‚˜๋ˆ„์–ด ์“ฐ๋ฉฐ, Iteration์„ ํ•œ๋ฒˆ๋งŒ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ ์‹œ๊ฐ„์— ๋Œ€ํ•œ ๋ถ€๋‹ด์ด ์ ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. ๋ฐ˜๋ฉด์—, ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋˜๋ฉด ๋ชจ๋ธ์ด test set์— ๋Œ€ํ•ด overfit๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.



  • ์ข‹์€ ๋ชจ๋ธ์ด๋ž€?

ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๊ณ , ๋ฏธ๋ž˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋‹ค.

ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์„ค๋ช…ํ•œ๋‹ค๋Š” ๊ฒƒ์€, training error๋ฅผ minimizeํ•˜๋Š” ๋ชจ๋ธ์„ ์˜๋ฏธํ•œ๋‹ค. 

 

 

mse(์ตœ์†Œ ์ œ๊ณฑ๋ฒ•)
์„ ํ˜•ํšŒ๊ท€์—์„œ์˜ ์ตœ์†Œ์ œ๊ณฑ๊ณต์‹

 

 

๋ชจ๋ธ๋กœ์จ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„์€ Bias์™€ Variance์ด๋ฉฐ, ์ตœ๋Œ€ํ•œ ๋‚ฎ์ถฐ์•ผ ํ•œ๋‹ค.



  • regularization์ด๋ž€?

regularization(์ •๊ทœํ™”)์ด๋ž€, ์˜ค์ฐจ ํ•จ์ˆ˜์— ํŠน์ •ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค. ์ •ํ™•ํžˆ ๋งํ•˜๋ฉด, ์˜ค์ฐจํ•จ์ˆ˜์˜ ๋ณ€๋™์„ ์ค„์ด๊ธฐ ์œ„ํ•ด(overfitting์„ ์ค„์ด๊ธฐ ์œ„ํ•ด) ํŠน์ • ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0์ด ๋˜๋„๋ก ์ œํ•œํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

 

regularization graph

 

 

 MSE๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณต์‹์ด ์žˆ๋‹ค. ์•ž๋ถ€๋ถ„์€ Training data์— ๋Œ€ํ•œ ์ •ํ™•๋„๋ฅผ ์œ„ํ•œ ๊ฒƒ์ด๋ฉฐ, ๋’ท๋ถ€๋ถ„์€ ์ •๊ทœํ™”, ์ฆ‰ test data์— ๋Œ€ํ•œ ์ •ํ™•๋„๋ฅผ ์œ„ํ•œ ๊ฒƒ์ด๋‹ค. (lamda๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ 1๊ณผ 2๋กœ ๋‚˜๋‰œ๋‹ค)

 

 

 

 

๋žŒ๋‹ค๋ฅผ ํฌ๊ฒŒ ํ•˜๋ฉด, ๋ชจ๋“  ๋ฒ ํƒ€๊ฐ’์ด 0์ด ๋˜๋ฉฐ ์ง์„  ํ˜•ํƒœ์˜ ๋ชจ๋ธ์ด ๋˜๋ฉฐ, underfitting๋œ๋‹ค. 

 

lambda๊ฐ€ ํฐ ๊ฒฝ์šฐ, beta๊ฐ’์ด ๊ทน๋‹จ์ ์œผ๋กœ ์ž‘์•„์ง€๋ฏ€๋กœ constantํ•œ ๋ชจ๋ธ์ด ์ƒ์„ฑ๋œ๋‹ค(underfitting)

 

 

 

 

lambda๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ, beta์— ๋Œ€ํ•œ ์ œ์•ฝ์ด ์—†์–ด์ง€๋ฏ€๋กœ overfitting๋œ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค. 

 

 

 

 

๋”ฐ๋ผ์„œ, regularization์€ ํšŒ๊ท€ ๊ณ„์ˆ˜ beta๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์— ์ œ์•ฝ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ฉฐ MSE์™€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

๋˜ํ•œ ์ œ์•ฝ ์กฐ๊ฑด์— ์˜ํ•ด bias๊ฐ€ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, variance๋Š” ๊ฐ์†Œํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. 

 

์ œ์•ฝ์„ ๊ฑธ์ง€ ์•Š์•˜์„ ๋•Œ์˜ ์ฐจํŠธ๋ฅผ ์‚ดํŽด๋ณด์ž. 

 

 

 

 

์—ฌ๊ธฐ์—์„œ ๊ฐ€์žฅ ์ ํ•ฉํ•œ Beta๋Š” MSE๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ (4,5)๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. 

 

๊ทธ๋Ÿฌ๋‚˜ beta์— ์ œ์•ฝ์ด ์žˆ๋Š” ๊ฒฝ์šฐ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค. 

 

 

 

 

์œ„ ๊ฐ™์€ ์ฐจํŠธ์—์„œ๋Š” (2,4)๊ฐ€ ์ตœ์ƒ์˜ Beta๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. 

 

 



  • Norm์ด๋ž€?

Norm์€ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

 

  •   L1/L2 regularization์ด๋ž€?

regularization(์ •๊ทœํ™”)๋Š” ๋ชจ๋ธ์ด ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ํ†ต์ œํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ์ƒ๊ด€๊ณ„์ˆ˜(Beta)์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋Š” ๋‘๊ฐ€์ง€๋กœ ๋‚˜๋‰  ์ˆ˜ ์žˆ๋‹ค. 

1) L1  regularization(Lasso regression) ๊ณผ 2) L2 regularization(Ridget regression) ์ด๋‹ค.

๊ธฐ์กด์— ์„ค๋ช…ํ–ˆ๋“ฏ์ด, regularization์€ MSE๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. MSE๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋‹ค์Œ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ์ดํ•ดํ•ด๋ณด์ž.

 

 

mse equation

 

 

๋‹ค์Œ๊ณผ ๊ฐ™์ด X๊ฐ€ 2๊ฐœ์ธ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ MSE ๊ณต์‹์„ ํ’€๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ Conic equation์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

๋˜ํ•œ ์ด๋Ÿฌํ•œ equation์€ ํŒ๋ณ„์‹์— ๋”ฐ๋ผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ทธ๋ž˜ํ”„ ํ˜•ํƒœ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ MSE์˜ ๊ฒฝ์šฐ ํƒ€์›์— ํ•ด๋‹นํ•œ๋‹ค. 

 

๋‹ค์‹œ L2 regularization๋กœ ๋Œ์•„์™€๋ณด์ž.

L2 Regularization์˜ ๊ฒฝ์šฐ ํŠน์ • beta์— ๋Œ€ํ•œ ๊ฐ’์— ์ œ์•ฝ์„ ์ฃผ๋Š” ํ˜•ํƒœ์ด๋‹ค. 

 

 

L2 Regularization(ridge regression)

 

 

๊ธฐ์กด์— beta์— ์ œ์•ฝ์„ ๊ฑธ์ง€ ์•Š์•˜์„ ๊ฒฝ์šฐ์˜ ์—๋Ÿฌ ์ตœ์†Œ์™€, ์ œ์•ฝ์กฐ๊ฑด์„ ๊ฑธ์€ ์ƒํƒœ์˜ ์—๋Ÿฌ ์ตœ์†Œ๊ฐ€ ์„œ๋กœ ์ ‘์ ์ด ๋˜๊ธฐ์œ„ํ•ด ๊ณ„์†ํ•ด์„œ MSE๋ฅผ ํ‚ค์šฐ๊ณ  ์ œ์•ฝ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ์—๋Ÿฌ์ตœ์†Œ๋ฅผ ์ฐพ๊ฒŒ ๋œ๋‹ค.(beta๊ฐ’์˜ ํฌ๊ธฐ ์ฆ๊ฐ€์™€ variance์˜ ์ฆ๊ฐ€, Bias์˜ ๊ฐ์†Œ)

 

 

 

 

์ œ์•ฝ ์กฐ๊ฑด์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด LSE(Least squares estimator)๋ณด๋‹ค ์ž‘์•„์ง€๊ฒŒ ๋˜๋ฉฐ, ์ด๋ฅผ shrinkageํ•˜๋‹ค๊ณ  ํ•œ๋‹ค.

t๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์ œ์•ฝ์ด ์ ์–ด์ง€๋ฉฐ, t๊ฐ€ ์ž‘์•„์งˆ์ˆ˜๋ก ์ œ์•ฝ์ด ๊ฐ•ํ•ด์ง„๋‹ค.  t๊ฐ’์ด ํฐ ๊ฒฝ์šฐ, ์ œ์•ฝ์ด ์—†๋Š”๊ฑฐ๋‚˜ ๋‹ค๋ฆ„ ์—†์œผ๋ฉฐ LSE๊ฐ€ ํฌํ•จ์ด ๋œ๋‹ค. 

 

 

 

 

์šฐ์ธก ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์ด t๊ฐ’์ด ํด์ˆ˜๋ก beta๊ฐ€ ์ž‘์•„์ง„๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

๋‹ค์Œ์€ L1 Regression์ด๋‹ค.

Lasso๋Š” beta๋ฅผ shrinkageํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ y์— ์žˆ์–ด ์ค‘์š”ํ•œ x ๋ณ€์ˆ˜๋ฅผ selectionํ•œ๋‹ค๋Š” ๋ฐ์— ์žˆ์–ด์„œ ์ฐจ์ด์ ์ด ์žˆ๋‹ค. 

ํŠนํžˆ, ridge์™€๋Š” ๋‹ค๋ฅด๊ฒŒ ์ ˆ๋Œ“๊ฐ’์„ ์ด์šฉํ•˜์—ฌ beta๋ฅผ ์ œ์•ฝํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. 

 

 

 

 

MSE์˜ ๊ณต์‹์„ ์‚ฌ์šฉํ•˜๋ฉด Lasso๋Š” ๋งˆ๋ฆ„๋ชจ ๊ผด๋กœ ํ‘œํ˜„์ด ๋˜๋ฉฐ, ๊ผญ์ง“์ ๊ณผ ๊ฐ™์ด ๋ถˆ์—ฐ์†์ ์ธ ๋ถ€๋ถ„์ด ์กด์žฌํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. 

 

 

lasso LSE

 

 

Beta๊ฐ€ 0์ด ๋˜๋Š” ๊ฒฝ์šฐ, ๊ฒฐ๊ณผ๊ฐ’์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์˜๋ฏธ์ด๋ฏ€๋กœ 0์ด ๋˜๋Š” ๊ฐ’์„ ์ œ์™ธํ•œ ๋‚˜๋จธ์ง€ beta๋ฅผ ์„ ํƒํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ฐ„์†Œํ™”ํ•œ๋‹ค. ์ ˆ๋Œ“๊ฐ’์ด๋ผ๋Š” ํŠน์ง• ๋•Œ๋ฌธ์— lasso๋Š” ๋ฏธ๋ถ„์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. 

 

 

 

 

lamda๊ฐ€ ๋งค์šฐ ํฌ๊ฒŒ ๋˜๋ฉด beta์— ๋Œ€ํ•œ ์ œ์•ฝ์ด ์ปค์ง€๋ฏ€๋กœ beta๊ฐ€ ๋ชจ๋‘ 0์ด ๋˜๋Š” ์ƒํ™ฉ์ด ์ผ์–ด๋‚˜๋ฉฐ constantํ•œ model์ด ์ƒ์„ฑ๋œ๋‹ค. 

 

 

ridge&lasso

 

 

ridge๋Š” parameter์— ์ œ์•ฝ์„ ๊ฐ€ํ•˜๋ฉด shrinkํ•œ๋‹ค. ๋ฐ˜๋ฉด lasso์˜ ๊ฒฝ์šฐ ์ ˆ๋Œ“๊ฐ’์ด๋ž€ ํŠน์ง•์œผ๋กœ ์ธํ•ด 0์œผ๋กœ ๋–จ์–ด์ง„๋‹ค. 

๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด 0์ด ์•„๋‹Œ ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ ์ค‘์š”ํ•˜๋ฉฐ(output์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๋ณ€์ˆ˜), ์ด๋“ค์„ selectํ•ด์•ผ ๋œ๋‹ค๋Š” ๋œป์ด ๋œ๋‹ค. 

 

ridge์™€ lasso์˜ ๊ฒฝ์šฐ ์ฐจ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

 

 

 

๊ทธ๋Ÿฌ๋‚˜ lasso์˜ ๊ฒฝ์šฐ ๋ณ€์ˆ˜๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์„ ๊ฒฝ์šฐ ๋ณ€์ˆ˜ ์„ ํƒ์— ์žˆ์–ด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. 

 

 

 

 

 

์ข…ํ•ฉํ•ด๋ณด๋ฉด L1 ๊ณผ L2๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฐจ์ด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. 

 

 

L1&L2 Regularization graph 

 

 

  • lamda๋ฅผ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•  ๊ฒƒ์ธ๊ฐ€?

ํฐ ๊ฐ’์˜ ๊ฒฝ์šฐ ์ ์€ ๋ณ€์ˆ˜๋กœ ์ธํ•ด ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์ด ์ƒ์„ฑ๋˜๋ฉฐ, underfitting์˜ ์œ„ํ—˜์ด ์žˆ๋‹ค.

๋ฐ˜๋ฉด ์ž‘์€ ๊ฐ’์˜ ๊ฒฝ์šฐ ๋งŽ์€ ๋ณ€์ˆ˜๊ฐ€ ์ƒ์„ฑ๋˜์–ด ๋ณต์žกํ•œ ๋ชจ๋ธ์ด ์ƒ์„ฑ๋˜๋ฉฐ, ํ•ด์„์ด ์–ด๋ ต๊ณ  overfitting์˜ ์œ„ํ—˜์ด ์žˆ๋‹ค. 

 

  • Data augmenttion ์ด๋ž€?

Overfitting์„ ์ค„์ด๊ธฐ ์œ„ํ•ด dataset์„ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํžˆ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์—†๋‹ค๋ฉด, ๋ฐ์ดํ„ฐ๋ฅผ ์™œ๊ณก์‹œํ‚ค๊ฑฐ๋‚˜ ํ™•๋Œ€, ํšŒ์ „, ์ถ•์†Œ๋“ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค.

 

 

data augmentation

 

 

 

  • Accuracy๋ž€?

์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์˜ˆ์ธก๋œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜(์˜ˆ์ธก ๊ฒฐ๊ณผ์™€ ์‹ค์ œ ๊ฒฐ๊ณผ๊ฐ€ ๋™์ผํ•œ ๊ฒฝ์šฐ)๋ฅผ ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๊ฐ’์ด๋‹ค. 

 

 

accuracy function

 

 

  • Recall์ด๋ž€?(sensitivity, ์ •๋‹ต์˜ ์ž…์žฅ)

์‹ค์ œ๋กœ true์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์ด true๋ผ๊ณ  ์ธ์‹ํ•œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜.

 

 accuracy๋Š” ์‹œ์Šคํ…œ์˜ ๊ฒฐ๊ณผ(์ถœ๋ ฅ)๊ฐ€ ์ฐธ๊ฐ’(true)์— ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€๋ฅผ ๋‚˜ํƒ€๋‚˜๊ณ  precision์€ ์‹œ์Šคํ…œ์ด ์–ผ๋งˆ๋‚˜ ์ผ๊ด€๋œ ๊ฐ’์„ ์ถœ๋ ฅํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ฆ‰, accuracy๋Š” ์‹œ์Šคํ…œ์˜ bias๋ฅผ, precision์€ ๋ฐ˜๋ณต ์ •๋ฐ€๋„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชธ๋ฌด๊ฒŒ๋ฅผ ์žฌ๋Š” ์ €์šธ์ด ์žˆ๋Š”๋ฐ 50kg์ธ ์‚ฌ๋žŒ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์ธก์ •ํ–ˆ์„ ๋•Œ 60, 60.12, 59.99, ... ์™€ ๊ฐ™์ด 60 ๊ทผ๋ฐฉ์˜ ๊ฐ’์œผ๋กœ ์ธก์ •ํ–ˆ๋‹ค๋ฉด ์ด ์ €์šธ์˜ accuracy๋Š” ๋งค์šฐ ๋‚ฎ์ง€๋งŒ(์—๋Ÿฌ๊ฐ€ 10kg์ด๋‚˜ ๋ฐœ์ƒํ•จ) precision์€ ๋งค์šฐ ๋†’๋‹ค๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

ยท       precision์ด๋ž€?(๋ชจ๋ธ์˜ ์ž…์žฅ)

๋ชจ๋ธ์ด ture๋กœ ์˜ˆ์ธกํ•œ ๋ฐ์ดํ„ฐ ์ค‘ ์‹ค์ œ๋กœ ture์ธ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜.




 

 

 

 

ยท       F1 score๋ž€?

F1 score๋Š” precision๊ณผ recall์˜ ์กฐํ™” ํ‰๊ท ์ด๋‹ค.

 

 

F1 score
์กฐํ™”ํ‰๊ท  ์˜ˆ์‹œ

 

 

  • SVM์ด๋ž€?(Support vector machine)

classification์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์ง€๋„ ํ•™์Šต ๋ชจ๋ธ. ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ๊ธฐ์ค€ ์„ ์„ ์ •์˜ํ•˜๋Š” ๋ชจ๋ธ์ด๋‹ค. 

 

2๊ฐœ์˜ ์†์„ฑ๋งŒ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ ์˜ ํ˜•ํƒœ๋ฅผ ์ง€๋‹Œ๋‹ค. 

 

 

2 feature dimention 

 

 

์†์„ฑ์ด 3๊ฐœ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒฝ์šฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ 3์ฐจ์› ๋งต์— ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. 

 

 

3 feature dimention

 

 

์†์„ฑ์ด 3๊ฐœ๋กœ ์ฆ๊ฐ€ํ•  ๊ฒฝ์šฐ ๊ฒฐ์ • ๊ฒฝ๊ณ„๋Š” ์„ ์ด ์•„๋‹Œ ํ‰๋ฉด์ด ๋œ๋‹ค. ๋˜ํ•œ ๊ฒฐ์ •๊ฒฝ๊ณ„์™€ ์„œํฌํŠธ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ Margin์ด๋ผ ํ•˜๋ฉฐ, ๋งˆ์ง„์ด ๊ทน๋Œ€ํ™” ๋ ์ˆ˜๋ก ์ตœ์ ์˜ ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ผ๊ณ  ํŒ๋‹จํ•œ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ SVM์€ ์ด์ƒ์น˜๋ฅผ ์–ผ๋งˆ๋‚˜ ํ—ˆ์šฉํ•  ๊ฒƒ์ด๋ƒ๊ฐ€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์•ˆ๊ฑด์ด๋‹ค. 

 

 

 

 

์ƒ๋‹จ ๊ทธ๋ž˜ํ”„์˜ ๊ฒฝ์šฐ๋Š” 'Hard Margin'์ด๋ผํ•˜๋ฉฐ, ์ด์ƒ์น˜(outlier)๋ฅผ ํ—ˆ์šฉํ•˜์ง€ ์•Š๊ณ  ๊ธฐ์ค€์„ ๊นŒ๋‹ค๋กญ๊ฒŒ ์„ธ์šด ๊ฒฝ์šฐ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ๋งˆ์ง„์ด ์ž‘์•„์ง„๋‹ค. ์ฆ‰ ๊ฐœ๋ณ„์ ์ธ ํ•™์Šต ๋ฐ์ดํ„ฐ๋“ค์„ ๋ชจ๋‘ ๋†“์น˜์ง€ ์•Š๊ธฐ ์œ„ํ•ด ์ด์ƒ์น˜๋ฅผ ํ—ˆ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด overfitting์˜ ์šฐ๋ ค๊ฐ€ ์žˆ๋‹ค. 

๋ฐ˜๋ฉด ํ•˜๋‹จ ๊ทธ๋ž˜ํ”„์˜ ๊ฒฝ์šฐ 'soft margin'์ด๋ผ ํ•˜๋ฉฐ ์ด์ƒ์น˜๋ฅผ ์–ด๋Š์ •๋„ ์ˆ˜์šฉํ•˜๋Š” ๋ชจ๋ธ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ๋งˆ์ง„์ด ์ปค์ง€์ง€๋งŒ ํ•™์Šต์ด ์ œ๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€์ง€์•Š์•„(๋ถ„๋ฅ˜๋ฅผ ์ œ๋Œ€๋กœ ํ•˜์ง€ ๋ชปํ•ด) underfitting์ด ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋‹ค. 

 

  • CNN(Convolutional Neural Network)์ด๋ž€?

์ด๋ฏธ์ง€๋ฅผ ์ธ์‹ํ•˜๊ธฐ์œ„ํ•ด ํŒจํ„ด์„ ์ฐพ๊ธฐ์œ„ํ•œ ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์ด๋‹ค. ํŠนํžˆ convolution์ด๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ์ค‘์š”ํ•œ๋ฐ, image์ „์ฒด๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹Œ ํŠน์ • ๋ถ€๋ถ„, filter์— ์ดˆ์ ์„ ๋งž์ถ”๋Š” ๊ฒƒ์ด๋‹ค.

 

 

 

 

๋งŒ์•ฝ image๊ฐ€ 7x7 ์‚ฌ์ด์ฆˆ๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค๋ฉด, 3x3์˜ filter๋ฅผ ์ ์šฉํ•  ๊ฒฝ์šฐ ์ด 9๊ฐœ์˜ parameter๊ฐ€ ์กด์žฌํ•˜๊ณ , ์ด๋Ÿฌํ•œ parameter๋ฅผ x๋ผ๊ณ  ํ•œ๋‹ค๋ฉด ๊ฐ€์ค‘์น˜ W์— ๋Œ€ํ•ด Wx+b์™€ ๊ฐ™์€ Actvation ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์ณ ํ•˜๋‚˜์˜ ์‹ค์ˆ˜๋กœ ์ถœ๋ ฅ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด๋•Œ filter๋ฅผ ์˜ฎ๊ธฐ๋Š” ์–‘์„ stride๋ผ๊ณ  ํ•˜๋ฉฐ, ์•„๋ž˜ GIF๋ฅผ ํ†ตํ•ด ์˜ˆ์‹œ์˜ ๊ฒฝ์šฐ Stride๊ฐ€ 1์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

๋‹ค์Œ๊ณผ ๊ฐ™์€ filtering์„ ์ง„ํ–‰ํ•จ์œผ๋กœ์จ ์–ป๊ฒŒ ๋˜๋Š” output์„ convolution layer๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๋˜ํ•œ ์ด๋Ÿฌํ•œ convolution์€ ์—ฌ๋Ÿฌ๋ฒˆ ์ง„ํ–‰์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์œ„์˜ ๊ณผ์ •์„ ํ†ตํ•ด ๋ณด์ด๋“ฏ์ด, 5x5 ์‚ฌ์ด์ฆˆ์˜ image๊ฐ€ convolution์„ ๊ฑฐ์น˜๋ฉด์„œ layer์˜ ์‚ฌ์ด์ฆˆ๊ฐ€ 3x3 ์‚ฌ์ด์ฆˆ๋กœ ์ถ•์†Œ๊ฐ€ ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ์†์‹ค์„ ์ค„์ด๊ธฐ ์œ„ํ•ด์„œ๋Š” padding์„ ์‚ฌ์šฉํ•œ๋‹ค. 

 

 

 

 

๊ธฐ์กด ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋งž์ถฐ ์–‘์˜†์— 0์„ ๋ง๋Œ€ ์‚ฌ์ด์ฆˆ๋ฅผ ํ™•์žฅ์‹œํ‚จ๋‹ค. 

 

 

 

 

๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ padding์„ ์ง€์†ํ•˜๋‹ค๋ณด๋ฉด, ์—ฐ์‚ฐ๋Ÿ‰์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜๊ธฐ ๋•Œ๋ฌธ์—, ์ ๋‹นํžˆ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ํŠน์ • feature๋ฅผ ๊ฐ•์กฐํ•ด์•ผํ•  ๋•Œ, ๊ทธ๋Ÿฌํ•œ ์—ญํ• ์„ Pooling layer์—์„œ ํ•˜๊ฒŒ ๋œ๋‹ค. 

 

Max Pooling/Average Pooling/Min Pooling์ด ์žˆ์ง€๋งŒ, CNN์—์„œ๋Š” ์ฃผ๋กœ Max Pooling์„ ์‚ฌ์šฉํ•œ๋‹ค. 

 

 

 

 

 

์ด๋Ÿฌํ•œ ๊ตฌ์กฐ๋ฅผ ์ข…ํ•ฉํ•˜๋ฉด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ „์ฒด ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

ํŠน์ง• ์ถ”์ถœ ๋‹จ๊ณ„(Feature Extraction)

- convolution layer: ํ•„ํ„ฐ๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์ถ”์ถœ

- pooling layer: ํŠน์ง•์„ ๊ฐ•ํ™”ํ•˜๊ณ  ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ž„

 

์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋‹จ๊ณ„(Classification)

- Flatten Layer

- Softmax Layer(Classfication ์ˆ˜ํ–‰)

 

  • sigmoid ํ•จ์ˆ˜๋ž€?

sigmoid ํ•จ์ˆ˜๋Š” S-ํ˜•ํƒœ์˜ ์ปค๋ธŒ๋ฅผ ์ง€๋‹Œ ํ•จ์ˆ˜์ด๋‹ค. ๋ฒ”์œ„๋Š” 0 ์—์„œ 1 ํ˜น์€ -1์—์„œ 1๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ, ์‹ค์ˆ˜๋ฅผ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์—์„œ ์‚ฌ์šฉ๋œ๋‹ค. 

 

logistic regression

 

  • Softmax ํ•จ์ˆ˜๋ž€?

๋ชจ๋“  ์ž…๋ ฅ๊ฐ’(์Œ/์–‘์ˆ˜ ์™€ 0)์— ๋Œ€ํ•ด 0๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜์ด๋ฉฐ, ํ™•๋ฅ ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

๋งŒ์•ฝ ์ž…๋ ฅ๊ฐ’์ด ๊ทน์†Œํ•˜๊ฑฐ๋‚˜ ์Œ์ˆ˜๋ผ๋ฉด ๋งค์šฐ ์ž‘์€ ํ™•๋ฅ ์„ ๋ฐ˜ํ™˜ํ•  ๊ฒƒ์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ฌธ์ œ์—์„œ ์‚ฌ์šฉ๋œ๋‹ค. 

 

softmax function

 

 

  • ReLU ํ•จ์ˆ˜๋ž€?

๊ธฐ์šธ๊ธฐ๊ฐ€ 1๋กœ, nural networks์— ์žˆ์–ด ํ•™์Šต์„ ๋น ๋ฅด๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋‹ค. 

์Œ์ˆ˜์— ๋Œ€ํ•ด์„œ๋Š” 0์„, ์–‘์ˆ˜์— ๋Œ€ํ•ด์„œ๋Š” ์ž…๋ ฅ๊ฐ’ ๊ทธ๋Œ€๋กœ๋ฅผ ๋ฐ˜ํ™˜ํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. 

 

ReLU function

 

  • Drop out์ด๋ž€?

์ •๊ทœํ™”์˜ ํ˜•ํƒœ ์ค‘ ํ•˜๋‚˜๋กœ, ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•™์Šต์ค‘์ผ ๋•Œ ๋žœ๋คํ•˜๊ฒŒ ๋‰ด๋Ÿฐ์„ ์ข…๋ฃŒ์‹œ์ผœ ํ•™์Šต์„ ๋ฐฉํ•ดํ•˜์—ฌ ํ•™์Šต์ด training set์— ์น˜์šฐ์น˜๋Š” ๊ฒƒ์„ ์˜ˆ๋ฐฉํ•œ๋‹ค. 

 

CNN ์ „์ฒด ๊ตฌ์กฐ

 

 

์ขŒ์ธก์€ ์ผ๋ฐ˜์ ์ธ neural network์ด๋ฉฐ, ์šฐ์ธก์ด drop out์„ ์ ์šฉํ•œ neural network์ด๋‹ค. 

 

  • transfer learning์ด๋ž€?

๊ทœ๋ชจ๊ฐ€ ํฐ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ƒˆ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ์†๋„๊ฐ€ ๋Š๋ฆฌ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ๊ธฐ์กด์— ํ•™์Šต๋œ DNN๋ชจ๋ธ์ด ์žˆ์„ ๋•Œ ์ด ๋ชจ๋ธ์˜ ํ•˜์œ„์ธต์„ ๊ฐ€์ ธ์™€ ์žฌ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์†๋„๋ฅผ ๋น ๋ฅด๊ฒŒ ํ•  ์ˆ˜ ์žˆ์„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ•™์Šต์— ํ•„์š”ํ•œ Training set์ด ํ›จ์”ฌ ์ ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. 

 

 

 

๋ฐ˜์‘ํ˜•