2020. 11. 1. 01:44ใComputer Science/Machine Learning๐ป
- Bias์ Variance์ ์ฐจ์ด๋ ๋ฌด์์ธ๊ฐ?
Bias๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์์์ผ๋ก ์ธํด ์ง์์ ์ผ๋ก ์๋ชป๋ ๊ฒ๋ค์ ํ์ตํ๋ ๊ฒฝํฅ์ ์๋ฏธํ๋ค.
Variance๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ์๋ฌ๊น์ง ๋ชจ๋ ๊ณ ๋ คํจ์ผ๋ก ์ธํด ์ค์ ํ์๊ณผ ๊ด๋ จ์๋ ๊ฒ๊น์ง ํ์ตํ๋ ๊ฒฝํฅ์ ์๋ฏธํ๋ค.
bias(ํธํฅ)์ด ๋๋ค๋ ๊ฒ์ ์ค์ธก์น์ ์์ธก์น๊ฐ์ ์ค์ฐจ๊ฐ ๋ฒ์ด์ง ๊ฒ์ ์๋ฏธํ๋ฉฐ, Variance(๋ถ์ฐ)์ด ๋๋ค๋ ๊ฒ์ ์์ธก์ ๋ฒ์๊ฐ ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ฆ, bias๊ฐ ๋๋ค๋ ๊ฒ์ ๊ณผ์์ ํฉ(underfitting, ๊พธ์คํ ํ๋ฆฌ๋ ์ํฉ)์ด๋ฉฐ Variance๊ฐ ๋๋ค๋ ๊ฒ์ ๊ณผ๋์ ํฉ(Overfitting, ์์ธก์ ๋ถํฌ๊ฐ ํฐ ์ํฉ)์์ ์๋ฏธํ๋ค.
๋ชจ๋ธ์ ์์ด ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ํ์ต์ํค์ง ์์ ๊ฒฝ์ฐ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ์ง ๋ชปํด Bias๊ฐ ์ปค์ง ๊ฒ์ด๊ณ , ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋คํ๊ฒ ํ์ต์ํฌ ๊ฒฝ์ฐ ๋ ธ์ด์ฆ๊น์ง ์ ๋ถ ํ์ตํ๊ฒ ๋์ด Variance๊ฐ ๋์์ง๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๋ฐ๋ผ์, bias์ variance๋ trade-off๊ด๊ณ์ด๋ค.
์๋ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ์ฝ๊ฒ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.
underfitting์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋ก ํ์ตํ์ง ๋ชปํด ๋ชจ๋ธ์ ๋ณต์ก๋๊ฐ ๋จ์ด์ง๊ณ (์ค์ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋ก ์์ธกํ ์ ์๋ ์ํฉ), overfitting์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋คํ๊ฒ ํ์ตํด ๋ชจ๋ธ์ ๋ณต์ก๋๊ฐ ๋์์ง ๋ชจ์ต์ ๋ณผ ์ ์๋ค.(test set์ด ์๋ ํ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ ์ ์๋ ์ํ)
- overfitting์ ์ด๋ป๊ฒ ํผํ ์ ์๋๊ฐ?
cross validation ํน์ ๋ ๋ง์ ๋ฐ์ดํฐ์ ํ์ต, feature ์ญ์ , regularization, Data augmentation ๋ฑ์ด ์๋ค.
- cross validation์ด๋?
๊ณ ์ ๋ test set์ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ธํ๊ณ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค๋ณด๋ฉด ๋ชจ๋ธ์ด test set์ ๊ณผ๋ค์ ํฉ๋๋ ํ์์ด ๋ฐ์ํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ cross-validation์ด ๋ํ๋๊ฒ ๋์๋ค.
๋ฐ์ดํฐ ์ ์ k๊ฐ์ subset์ผ๋ก ๋๋์ด ๊ฐ subset๋ด์์ test set๊ณผ training set์ผ๋ก ๋๋ ํ ์ค๋ณต์์ด ๋ฐ๊พธ์ด๊ฐ๋ฉฐ ํ๊ฐ๋ฅผ ์งํํ๋ค. ๋ชจ๋ ๋ฐ์ดํฐ ์ ์ ํ๊ฐ์ ํ์ฉํ ์ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ๋ถ์กฑ์ผ๋ก ์ธํ underfitting์ ๋ฐฉ์งํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ํนํ K-Fold cross validation์ ๊ฐ ๋ฐ๋ณต์ test set์ ๋ค๋ฅด๊ฒ ํ ๋นํ์ฌ K๊ฐ์ ๋ฐ์ดํฐํด๋ ์ธํธ๋ฅผ ๊ตฌ์ฑํ๋ค๋ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค.
classification์๋ stratified K-Fold cross validation์ด ์๋ค.
์ฃผ๋ก ๋ถ๋ฅ๋ฌธ์ ์์ ์ฌ์ฉ๋๋ฉฐ, label์ ๋ถํฌ๊ฐ ๊ฐ ํด๋์ค๋ณ๋ก ๋ถ๊ท ํ์ ์ด๋ฃฐ๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ค.
์ด์ ์๋ฐ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ Hold out ๋ฐฉ๋ฒ์ด ์๋ค.
holdout์ train๊ณผ test set์ ๋น์จ์ 9:1 ํน์ 7:3 ๋น์จ๋ก ๋๋์ด ์ฐ๋ฉฐ, Iteration์ ํ๋ฒ๋ง ํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ์๊ฐ์ ๋ํ ๋ถ๋ด์ด ์ ๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ฐ๋ฉด์, ํ๋ผ๋ฏธํฐ ํ๋์ ๋ฐ๋ณตํ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ด test set์ ๋ํด overfit๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๋จ์ ์ด ์๋ค.
- ์ข์ ๋ชจ๋ธ์ด๋?
ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ๊ณ , ๋ฏธ๋ ๋ฐ์ดํฐ์ ๋ํ ์์ธก ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ด๋ค.
ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ๋ค๋ ๊ฒ์, training error๋ฅผ minimizeํ๋ ๋ชจ๋ธ์ ์๋ฏธํ๋ค.
๋ชจ๋ธ๋ก์จ ์กฐ์ ํ ์ ์๋ ๋ถ๋ถ์ Bias์ Variance์ด๋ฉฐ, ์ต๋ํ ๋ฎ์ถฐ์ผ ํ๋ค.
- regularization์ด๋?
regularization(์ ๊ทํ)์ด๋, ์ค์ฐจ ํจ์์ ํน์ ํ ํจ๋ํฐ๋ฅผ ๋ถ์ฌํ๋ ๊ธฐ์ ์ด๋ค. ์ ํํ ๋งํ๋ฉด, ์ค์ฐจํจ์์ ๋ณ๋์ ์ค์ด๊ธฐ ์ํด(overfitting์ ์ค์ด๊ธฐ ์ํด) ํน์ ์๊ด๊ณ์๊ฐ 0์ด ๋๋๋ก ์ ํํ๋ ๊ฒ์ด๋ค.
MSE๋ฅผ ์ค์ด๊ธฐ ์ํด์๋ ๋ค์๊ณผ ๊ฐ์ ๊ณต์์ด ์๋ค. ์๋ถ๋ถ์ Training data์ ๋ํ ์ ํ๋๋ฅผ ์ํ ๊ฒ์ด๋ฉฐ, ๋ท๋ถ๋ถ์ ์ ๊ทํ, ์ฆ test data์ ๋ํ ์ ํ๋๋ฅผ ์ํ ๊ฒ์ด๋ค. (lamda๋ ํ๋ผ๋ฏธํฐ๋ก 1๊ณผ 2๋ก ๋๋๋ค)
๋๋ค๋ฅผ ํฌ๊ฒ ํ๋ฉด, ๋ชจ๋ ๋ฒ ํ๊ฐ์ด 0์ด ๋๋ฉฐ ์ง์ ํํ์ ๋ชจ๋ธ์ด ๋๋ฉฐ, underfitting๋๋ค.
lambda๊ฐ ํฐ ๊ฒฝ์ฐ, beta๊ฐ์ด ๊ทน๋จ์ ์ผ๋ก ์์์ง๋ฏ๋ก constantํ ๋ชจ๋ธ์ด ์์ฑ๋๋ค(underfitting)
lambda๊ฐ ์์ ๊ฒฝ์ฐ, beta์ ๋ํ ์ ์ฝ์ด ์์ด์ง๋ฏ๋ก overfitting๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
๋ฐ๋ผ์, regularization์ ํ๊ท ๊ณ์ beta๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ ์ ์ฝ์กฐ๊ฑด์ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ด๋ฉฐ MSE์ ์ฐจ์ด๊ฐ ์๋ค.
๋ํ ์ ์ฝ ์กฐ๊ฑด์ ์ํด bias๊ฐ ์ฆ๊ฐํ ์ ์์ง๋ง, variance๋ ๊ฐ์ํ๋ค๋ ํน์ง์ด ์๋ค.
์ ์ฝ์ ๊ฑธ์ง ์์์ ๋์ ์ฐจํธ๋ฅผ ์ดํด๋ณด์.
์ฌ๊ธฐ์์ ๊ฐ์ฅ ์ ํฉํ Beta๋ MSE๊ฐ ๊ฐ์ฅ ์์ (4,5)๊ฐ ๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ beta์ ์ ์ฝ์ด ์๋ ๊ฒฝ์ฐ๋ ์๋์ ๊ฐ๋ค.
์ ๊ฐ์ ์ฐจํธ์์๋ (2,4)๊ฐ ์ต์์ Beta๊ฐ ๋ ๊ฒ์ด๋ค.
- Norm์ด๋?
Norm์ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- L1/L2 regularization์ด๋?
regularization(์ ๊ทํ)๋ ๋ชจ๋ธ์ด ๊ณผ๋ํ๊ฒ ํ์ตํ๋ ๊ฒ์ ํต์ ํ๋ ๊ฒ์ด๋ฉฐ, ์๊ด๊ณ์(Beta)์ ๋ํ ํจ๋ํฐ๋ ๋๊ฐ์ง๋ก ๋๋ ์ ์๋ค.
1) L1 regularization(Lasso regression) ๊ณผ 2) L2 regularization(Ridget regression) ์ด๋ค.
๊ธฐ์กด์ ์ค๋ช ํ๋ฏ์ด, regularization์ MSE๋ฅผ ์ต์ํ ํ๋ ๊ฒ์ด๋ค. MSE๋ฅผ ์ต์ํ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ค์ ์์๋ฅผ ํตํด ์ดํดํด๋ณด์.
๋ค์๊ณผ ๊ฐ์ด X๊ฐ 2๊ฐ์ธ ๋ชจ๋ธ์ ๊ฒฝ์ฐ MSE ๊ณต์์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ Conic equation์ ์ป์ ์ ์๋ค.
๋ํ ์ด๋ฌํ equation์ ํ๋ณ์์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ ๊ทธ๋ํ ํํ๋ฅผ ์ป์ ์ ์์ผ๋ฉฐ MSE์ ๊ฒฝ์ฐ ํ์์ ํด๋นํ๋ค.
๋ค์ L2 regularization๋ก ๋์์๋ณด์.
L2 Regularization์ ๊ฒฝ์ฐ ํน์ beta์ ๋ํ ๊ฐ์ ์ ์ฝ์ ์ฃผ๋ ํํ์ด๋ค.
๊ธฐ์กด์ beta์ ์ ์ฝ์ ๊ฑธ์ง ์์์ ๊ฒฝ์ฐ์ ์๋ฌ ์ต์์, ์ ์ฝ์กฐ๊ฑด์ ๊ฑธ์ ์ํ์ ์๋ฌ ์ต์๊ฐ ์๋ก ์ ์ ์ด ๋๊ธฐ์ํด ๊ณ์ํด์ MSE๋ฅผ ํค์ฐ๊ณ ์ ์ฝ์กฐ๊ฑด์ ๋ง์กฑํ๋ ์๋ฌ์ต์๋ฅผ ์ฐพ๊ฒ ๋๋ค.(beta๊ฐ์ ํฌ๊ธฐ ์ฆ๊ฐ์ variance์ ์ฆ๊ฐ, Bias์ ๊ฐ์)
์ ์ฝ ์กฐ๊ฑด์ ๊ฐ์ง๊ฒ ๋๋ฉด LSE(Least squares estimator)๋ณด๋ค ์์์ง๊ฒ ๋๋ฉฐ, ์ด๋ฅผ shrinkageํ๋ค๊ณ ํ๋ค.
t๊ฐ ์ปค์ง์๋ก ์ ์ฝ์ด ์ ์ด์ง๋ฉฐ, t๊ฐ ์์์ง์๋ก ์ ์ฝ์ด ๊ฐํด์ง๋ค. t๊ฐ์ด ํฐ ๊ฒฝ์ฐ, ์ ์ฝ์ด ์๋๊ฑฐ๋ ๋ค๋ฆ ์์ผ๋ฉฐ LSE๊ฐ ํฌํจ์ด ๋๋ค.
์ฐ์ธก ๊ทธ๋ํ์ ๊ฐ์ด t๊ฐ์ด ํด์๋ก beta๊ฐ ์์์ง๋ค๊ณ ๋ณผ ์ ์๋ค.
๋ค์์ L1 Regression์ด๋ค.
Lasso๋ beta๋ฅผ shrinkageํ ๋ฟ๋ง ์๋๋ผ y์ ์์ด ์ค์ํ x ๋ณ์๋ฅผ selectionํ๋ค๋ ๋ฐ์ ์์ด์ ์ฐจ์ด์ ์ด ์๋ค.
ํนํ, ridge์๋ ๋ค๋ฅด๊ฒ ์ ๋๊ฐ์ ์ด์ฉํ์ฌ beta๋ฅผ ์ ์ฝํ๋ค๋ ํน์ง์ด ์๋ค.
MSE์ ๊ณต์์ ์ฌ์ฉํ๋ฉด Lasso๋ ๋ง๋ฆ๋ชจ ๊ผด๋ก ํํ์ด ๋๋ฉฐ, ๊ผญ์ง์ ๊ณผ ๊ฐ์ด ๋ถ์ฐ์์ ์ธ ๋ถ๋ถ์ด ์กด์ฌํ๋ค๋ ํน์ง์ด ์๋ค.
Beta๊ฐ 0์ด ๋๋ ๊ฒฝ์ฐ, ๊ฒฐ๊ณผ๊ฐ์ ํฐ ์ํฅ์ ๋ฏธ์น์ง ๋ชปํ๋ค๋ ์๋ฏธ์ด๋ฏ๋ก 0์ด ๋๋ ๊ฐ์ ์ ์ธํ ๋๋จธ์ง beta๋ฅผ ์ ํํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ํํ๋ค. ์ ๋๊ฐ์ด๋ผ๋ ํน์ง ๋๋ฌธ์ lasso๋ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํ๋ค.
lamda๊ฐ ๋งค์ฐ ํฌ๊ฒ ๋๋ฉด beta์ ๋ํ ์ ์ฝ์ด ์ปค์ง๋ฏ๋ก beta๊ฐ ๋ชจ๋ 0์ด ๋๋ ์ํฉ์ด ์ผ์ด๋๋ฉฐ constantํ model์ด ์์ฑ๋๋ค.
ridge๋ parameter์ ์ ์ฝ์ ๊ฐํ๋ฉด shrinkํ๋ค. ๋ฐ๋ฉด lasso์ ๊ฒฝ์ฐ ์ ๋๊ฐ์ด๋ ํน์ง์ผ๋ก ์ธํด 0์ผ๋ก ๋จ์ด์ง๋ค.
๊ทธ๋ํ๋ฅผ ํตํด 0์ด ์๋ ๋ณ์์ ๊ฒฝ์ฐ ์ค์ํ๋ฉฐ(output์ ์ํฅ์ ๋ฏธ์น๋ ๋ณ์), ์ด๋ค์ selectํด์ผ ๋๋ค๋ ๋ป์ด ๋๋ค.
ridge์ lasso์ ๊ฒฝ์ฐ ์ฐจ์ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฌ๋ lasso์ ๊ฒฝ์ฐ ๋ณ์๊ฐ ์๊ด๊ด๊ณ๊ฐ ๋์ ๊ฒฝ์ฐ ๋ณ์ ์ ํ์ ์์ด ์ฑ๋ฅ์ด ์ ํ๋ ์ ์๋ค๋ ๋จ์ ์ด ์๋ค.
์ข ํฉํด๋ณด๋ฉด L1 ๊ณผ L2๋ ๋ค์๊ณผ ๊ฐ์ ์ฐจ์ด๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- lamda๋ฅผ ์ด๋ป๊ฒ ์ค์ ํ ๊ฒ์ธ๊ฐ?
ํฐ ๊ฐ์ ๊ฒฝ์ฐ ์ ์ ๋ณ์๋ก ์ธํด ๊ฐ๋จํ ๋ชจ๋ธ์ด ์์ฑ๋๋ฉฐ, underfitting์ ์ํ์ด ์๋ค.
๋ฐ๋ฉด ์์ ๊ฐ์ ๊ฒฝ์ฐ ๋ง์ ๋ณ์๊ฐ ์์ฑ๋์ด ๋ณต์กํ ๋ชจ๋ธ์ด ์์ฑ๋๋ฉฐ, ํด์์ด ์ด๋ ต๊ณ overfitting์ ์ํ์ด ์๋ค.
- Data augmenttion ์ด๋?
Overfitting์ ์ค์ด๊ธฐ ์ํด dataset์ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ์์งํ ์ ์๋ค๋ฉด, ๋ฐ์ดํฐ๋ฅผ ์๊ณก์ํค๊ฑฐ๋ ํ๋, ํ์ , ์ถ์๋ฑ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ์ํจ๋ค.
- Accuracy๋?
์ฌ๋ฐ๋ฅด๊ฒ ์์ธก๋ ๋ฐ์ดํฐ์ ์(์์ธก ๊ฒฐ๊ณผ์ ์ค์ ๊ฒฐ๊ณผ๊ฐ ๋์ผํ ๊ฒฝ์ฐ)๋ฅผ ์ ์ฒด ๋ฐ์ดํฐ์ ์๋ก ๋๋ ๊ฐ์ด๋ค.
- Recall์ด๋?(sensitivity, ์ ๋ต์ ์ ์ฅ)
์ค์ ๋ก true์ธ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ด true๋ผ๊ณ ์ธ์ํ ๋ฐ์ดํฐ์ ์.
accuracy๋ ์์คํ
์ ๊ฒฐ๊ณผ(์ถ๋ ฅ)๊ฐ ์ฐธ๊ฐ(true)์ ์ผ๋ง๋ ๊ฐ๊น์ด์ง๋ฅผ ๋ํ๋๊ณ precision์ ์์คํ
์ด ์ผ๋ง๋ ์ผ๊ด๋ ๊ฐ์ ์ถ๋ ฅํ๋์ง๋ฅผ ๋ํ๋ธ๋ค. ์ฆ, accuracy๋ ์์คํ
์ bias๋ฅผ, precision์ ๋ฐ๋ณต ์ ๋ฐ๋๋ฅผ ๋ํ๋ธ๋ค. ์๋ฅผ ๋ค์ด, ๋ชธ๋ฌด๊ฒ๋ฅผ ์ฌ๋ ์ ์ธ์ด ์๋๋ฐ 50kg์ธ ์ฌ๋์ ์ฌ๋ฌ ๋ฒ ์ธก์ ํ์ ๋ 60, 60.12, 59.99, ... ์ ๊ฐ์ด 60 ๊ทผ๋ฐฉ์ ๊ฐ์ผ๋ก ์ธก์ ํ๋ค๋ฉด ์ด ์ ์ธ์ accuracy๋ ๋งค์ฐ ๋ฎ์ง๋ง(์๋ฌ๊ฐ 10kg์ด๋ ๋ฐ์ํจ) precision์ ๋งค์ฐ ๋๋ค๊ณ ๋งํ ์ ์๋ค.
ยท precision์ด๋?(๋ชจ๋ธ์ ์ ์ฅ)
๋ชจ๋ธ์ด ture๋ก ์์ธกํ ๋ฐ์ดํฐ ์ค ์ค์ ๋ก ture์ธ ๋ฐ์ดํฐ์ ์.
ยท F1 score๋?
F1 score๋ precision๊ณผ recall์ ์กฐํ ํ๊ท ์ด๋ค.
- SVM์ด๋?(Support vector machine)
classification์ ์ฌ์ฉํ ์ ์๋ ๋จธ์ ๋ฌ๋ ์ง๋ ํ์ต ๋ชจ๋ธ. ๋ถ๋ฅ๋ฅผ ์ํ ๊ธฐ์ค ์ ์ ์ ์ํ๋ ๋ชจ๋ธ์ด๋ค.
2๊ฐ์ ์์ฑ๋ง ์กด์ฌํ๋ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ ์ ์ ํํ๋ฅผ ์ง๋๋ค.
์์ฑ์ด 3๊ฐ๋ก ์ฆ๊ฐํ๋ ๊ฒฝ์ฐ, ๋ค์๊ณผ ๊ฐ์ 3์ฐจ์ ๋งต์ ํํ์ด ๊ฐ๋ฅํ๋ค.
์์ฑ์ด 3๊ฐ๋ก ์ฆ๊ฐํ ๊ฒฝ์ฐ ๊ฒฐ์ ๊ฒฝ๊ณ๋ ์ ์ด ์๋ ํ๋ฉด์ด ๋๋ค. ๋ํ ๊ฒฐ์ ๊ฒฝ๊ณ์ ์ํฌํธ ๋ฒกํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ Margin์ด๋ผ ํ๋ฉฐ, ๋ง์ง์ด ๊ทน๋ํ ๋ ์๋ก ์ต์ ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ผ๊ณ ํ๋จํ๋ค. ๋ฟ๋ง ์๋๋ผ SVM์ ์ด์์น๋ฅผ ์ผ๋ง๋ ํ์ฉํ ๊ฒ์ด๋๊ฐ ๊ฐ์ฅ ์ค์ํ ์๊ฑด์ด๋ค.
์๋จ ๊ทธ๋ํ์ ๊ฒฝ์ฐ๋ 'Hard Margin'์ด๋ผํ๋ฉฐ, ์ด์์น(outlier)๋ฅผ ํ์ฉํ์ง ์๊ณ ๊ธฐ์ค์ ๊น๋ค๋กญ๊ฒ ์ธ์ด ๊ฒฝ์ฐ์ด๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ ๋ง์ง์ด ์์์ง๋ค. ์ฆ ๊ฐ๋ณ์ ์ธ ํ์ต ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ ๋์น์ง ์๊ธฐ ์ํด ์ด์์น๋ฅผ ํ์ฉํ์ง ์์ผ๋ฉด overfitting์ ์ฐ๋ ค๊ฐ ์๋ค.
๋ฐ๋ฉด ํ๋จ ๊ทธ๋ํ์ ๊ฒฝ์ฐ 'soft margin'์ด๋ผ ํ๋ฉฐ ์ด์์น๋ฅผ ์ด๋์ ๋ ์์ฉํ๋ ๋ชจ๋ธ์ด๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ ๋ง์ง์ด ์ปค์ง์ง๋ง ํ์ต์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง์์(๋ถ๋ฅ๋ฅผ ์ ๋๋ก ํ์ง ๋ชปํด) underfitting์ด ์ผ์ด๋ ์ ์๋ค.
- CNN(Convolutional Neural Network)์ด๋?
์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๊ธฐ์ํด ํจํด์ ์ฐพ๊ธฐ์ํ ๋ด๋ด ๋คํธ์ํฌ์ด๋ค. ํนํ convolution์ด๋ผ๋ ๋จ์ด๊ฐ ์ค์ํ๋ฐ, image์ ์ฒด๋ฅผ ๋ณด๋ ๊ฒ์ด ์๋ ํน์ ๋ถ๋ถ, filter์ ์ด์ ์ ๋ง์ถ๋ ๊ฒ์ด๋ค.
๋ง์ฝ image๊ฐ 7x7 ์ฌ์ด์ฆ๋ผ๊ณ ๊ฐ์ ํ๋ค๋ฉด, 3x3์ filter๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ ์ด 9๊ฐ์ parameter๊ฐ ์กด์ฌํ๊ณ , ์ด๋ฌํ parameter๋ฅผ x๋ผ๊ณ ํ๋ค๋ฉด ๊ฐ์ค์น W์ ๋ํด Wx+b์ ๊ฐ์ Actvation ํจ์๋ฅผ ๊ฑฐ์ณ ํ๋์ ์ค์๋ก ์ถ๋ ฅ์ด ๊ฐ๋ฅํ๋ค. ์ด๋ filter๋ฅผ ์ฎ๊ธฐ๋ ์์ stride๋ผ๊ณ ํ๋ฉฐ, ์๋ GIF๋ฅผ ํตํด ์์์ ๊ฒฝ์ฐ Stride๊ฐ 1์์ ์ ์ ์๋ค.
๋ค์๊ณผ ๊ฐ์ filtering์ ์งํํจ์ผ๋ก์จ ์ป๊ฒ ๋๋ output์ convolution layer๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ํ ์ด๋ฌํ convolution์ ์ฌ๋ฌ๋ฒ ์งํ์ ํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์์ ๊ณผ์ ์ ํตํด ๋ณด์ด๋ฏ์ด, 5x5 ์ฌ์ด์ฆ์ image๊ฐ convolution์ ๊ฑฐ์น๋ฉด์ layer์ ์ฌ์ด์ฆ๊ฐ 3x3 ์ฌ์ด์ฆ๋ก ์ถ์๊ฐ ๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ์์ค์ ์ค์ด๊ธฐ ์ํด์๋ padding์ ์ฌ์ฉํ๋ค.
๊ธฐ์กด ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ง์ถฐ ์์์ 0์ ๋ง๋ ์ฌ์ด์ฆ๋ฅผ ํ์ฅ์ํจ๋ค.
๊ทธ๋ฌ๋ ์ด๋ฌํ padding์ ์ง์ํ๋ค๋ณด๋ฉด, ์ฐ์ฐ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋๊ธฐ ๋๋ฌธ์, ์ ๋นํ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ํน์ feature๋ฅผ ๊ฐ์กฐํด์ผํ ๋, ๊ทธ๋ฌํ ์ญํ ์ Pooling layer์์ ํ๊ฒ ๋๋ค.
Max Pooling/Average Pooling/Min Pooling์ด ์์ง๋ง, CNN์์๋ ์ฃผ๋ก Max Pooling์ ์ฌ์ฉํ๋ค.
์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ์ข ํฉํ๋ฉด, ๋ค์๊ณผ ๊ฐ์ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ์ดํดํ ์ ์๋ค.
ํน์ง ์ถ์ถ ๋จ๊ณ(Feature Extraction)
- convolution layer: ํํฐ๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํน์ง์ ์ถ์ถ
- pooling layer: ํน์ง์ ๊ฐํํ๊ณ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ์ค์
์ด๋ฏธ์ง ๋ถ๋ฅ ๋จ๊ณ(Classification)
- Flatten Layer
- Softmax Layer(Classfication ์ํ)
- sigmoid ํจ์๋?
sigmoid ํจ์๋ S-ํํ์ ์ปค๋ธ๋ฅผ ์ง๋ ํจ์์ด๋ค. ๋ฒ์๋ 0 ์์ 1 ํน์ -1์์ 1๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ์ค์๋ฅผ ํ๋ฅ ๋ก ๋ณํํ๋ ์ญํ ์ ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ก์ง์คํฑ ํ๊ท์์ ์ฌ์ฉ๋๋ค.
- Softmax ํจ์๋?
๋ชจ๋ ์ ๋ ฅ๊ฐ(์/์์ ์ 0)์ ๋ํด 0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ๋ณํํ๋ ํจ์์ด๋ฉฐ, ํ๋ฅ ๋ก ํด์ํ ์ ์๋ค.
๋ง์ฝ ์ ๋ ฅ๊ฐ์ด ๊ทน์ํ๊ฑฐ๋ ์์๋ผ๋ฉด ๋งค์ฐ ์์ ํ๋ฅ ์ ๋ฐํํ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ค์ค ํด๋์ค ๋ฌธ์ ์์ ์ฌ์ฉ๋๋ค.
- ReLU ํจ์๋?
๊ธฐ์ธ๊ธฐ๊ฐ 1๋ก, nural networks์ ์์ด ํ์ต์ ๋น ๋ฅด๊ฒ ํ ์ ์๋๋ก ๋์์ฃผ๋ ํ์ฑํ ํจ์๋ค.
์์์ ๋ํด์๋ 0์, ์์์ ๋ํด์๋ ์ ๋ ฅ๊ฐ ๊ทธ๋๋ก๋ฅผ ๋ฐํํ๋ค๋ ํน์ง์ด ์๋ค.
- Drop out์ด๋?
์ ๊ทํ์ ํํ ์ค ํ๋๋ก, ๋ด๋ด ๋คํธ์ํฌ๊ฐ ํ์ต์ค์ผ ๋ ๋๋คํ๊ฒ ๋ด๋ฐ์ ์ข ๋ฃ์์ผ ํ์ต์ ๋ฐฉํดํ์ฌ ํ์ต์ด training set์ ์น์ฐ์น๋ ๊ฒ์ ์๋ฐฉํ๋ค.
์ข์ธก์ ์ผ๋ฐ์ ์ธ neural network์ด๋ฉฐ, ์ฐ์ธก์ด drop out์ ์ ์ฉํ neural network์ด๋ค.
- transfer learning์ด๋?
๊ท๋ชจ๊ฐ ํฐ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ์ฒ์๋ถํฐ ์๋ก ํ์ต์ํค๋ ๊ฒ์ ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ ๊ธฐ์กด์ ํ์ต๋ DNN๋ชจ๋ธ์ด ์์ ๋ ์ด ๋ชจ๋ธ์ ํ์์ธต์ ๊ฐ์ ธ์ ์ฌ์ฌ์ฉํ์ฌ ํ์ต ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์์ ๋ฟ๋ง ์๋๋ผ ํ์ต์ ํ์ํ Training set์ด ํจ์ฌ ์ ๋ค๋ ์ฅ์ ์ด ์๋ค.
'Computer Science > Machine Learning๐ป' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[2] ์ถ์ ๊ณผ ๊ฐ์ค ๊ฒ์ (0) | 2020.11.08 |
---|---|
[1] ์ด์ฐํ/์ฐ์ํ ํ๋ฅ ๋ถํฌ (0) | 2020.11.05 |
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์ธํฐ๋ทฐ(1) (0) | 2020.11.01 |
easily image crawling with python and save in local drive (3) | 2020.03.06 |
๋จธ์ ๋ฌ๋์ด๋ ๋ฌด์์ธ๊ฐ? (0) | 2020.03.03 |