๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์ธํ„ฐ๋ทฐ(1)

2020. 11. 1. 00:49ใ†Computer Science/Machine Learning๐Ÿ’ป

๋ฐ˜์‘ํ˜•
  • p-value๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

๊ท€๋ฌด๊ฐ€์„ค์ด ๋งž๋‹ค๋Š” ์ „์ œ ํ•˜์— ํ‘œ๋ณธ์—์„œ ์‹ค์ œ๋กœ ๊ด€์ธก๋œ ํ†ต๊ณ„์น˜์™€ ๊ฐ™๊ฑฐ๋‚˜ ๋” ๊ทน๋‹จ์ ์ธ ํ†ต๊ณ„์น˜๊ฐ€ ๊ด€์ธก๋  ํ™•๋ฅ . 
P-value๋Š” ๋‚ด๊ฐ€ ๋ฝ‘์€ ํ‘œ๋ณธํ‰๊ท ์ด ๊ท€๋ฌด๊ฐ€์„ค์— ๋”ฐ๋ผ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ๋ช‡ %๊ฐ€ ๋˜์—ˆ๋Š”๊ฐ€๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค

์˜ˆ๋ฅผ ๋“ค์–ด ๋‘ ํ‘œ๋ณธ ํ‰๊ท ์˜ ์ฐจ์ด๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, ๋‘ ํ‘œ๋ณธ ์ง‘๋‹จ์˜ ๋ชจ์ง‘๋‹จ์ด ๊ฐ™๋‹ค๋Š” ๊ฐ€์ •์„ ์ „์ œํ•˜์—ฌ ํ†ต๊ณ„๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค.

 

  • R-Square์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ธ๊ฐ€?

๊ฒฐ์ •๊ณ„์ˆ˜๋ผ๊ณ  ๋ถˆ๋ฆฌ๋ฉฐ, ํšŒ๊ท€๋ชจํ˜•์˜ ์„ค๋ช…๋ ฅ์„ ํ‘œํ˜„ํ•œ ๊ฒƒ. 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์„ค๋ช…๋ ฅ์ด ๋‚ฎ๊ณ , 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋†’๋‹ค. 

R-squred๋Š” 1-SSE/SST(SSR/SST)๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, SST๋Š” Sum of squre Total์ด๋ฉฐ, SSE๋Š” Sum of squre of error์ด๋‹ค.  SST๋Š” ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’, ํ‰๊ท ๊ฐ’ ์‚ฌ์ด์— ๋ฐœ์ƒํ•œ ์ฐจ์ด์ด๋ฉฐ, SSE๋Š” ํšŒ๊ท€์‹๊ณผ ์‹ค์ œ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์˜๋ฏธํ•œ๋‹ค. 

SSR์€ Sum of square Regression์œผ๋กœ, ํšŒ๊ท€์‹๊ณผ ํ‰๊ท ๊ฐ’์˜ ์ฐจ์ด์ด๋‹ค. ์ฆ‰, SSR์ด ๋†’์•„์งˆ์ˆ˜๋ก R-Squred๋Š” ๋†’์•„์ง„๋‹ค. 

 

  • missing value๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ด์•ผํ•˜๋Š”๊ฐ€?

๊ฐ€์žฅ ํฌ๊ฒŒ๋Š” 2๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. 1) ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜, 2)์ฑ„์šฐ๊ฑฐ๋‚˜.

์ œ๊ฑฐ์˜ ๊ฒฝ์šฐ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋Š” ์ „์ฒด ํ–‰์„ ์‚ญ์ œํ•˜๊ฑฐ๋‚˜ ๋‹จ์ผ๊ฐ’์„ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

๋ฐ˜๋ฉด ์ฑ„์šฐ๊ณ  ๋ณด๊ฐ„ํ•˜๋Š” ๊ฒฝ์šฐ ํ‰๊ท /์ค‘์•™๊ฐ’/์˜ˆ์ธก๊ฐ’๋“ฑ์„ ์ถ”๊ฐ€ํ•˜๊ณค ํ•œ๋‹ค. 

 

  • ์ƒ๊ด€๊ด€๊ณ„์™€ ์ธ๊ณผ๊ด€๊ณ„์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๋ผ

์ธ๊ณผ๊ด€๊ณ„๋Š” ํŠน์ •ํ•œ ์‚ฌ๊ฑด์ด ๋‹ค๋ฅธ ์‚ฌ๊ฑด์— ์ง์ ‘์ ์œผ๋กœ ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. (ex/๋ฌผ์— ์—ด์„ ๊ฐ€ํ•˜๋ฉด, ๋“๋Š”๋‹ค.)

์ƒ๊ด€๊ด€๊ณ„๋Š” ๋‘ ๊ฐ€์ง€ ์‚ฌ๊ฑด์— ์—ฐ๊ด€์„ฑ์ด ์กด์žฌํ•˜๋Š” ์ƒํƒœ์ž„์„ ์˜๋ฏธํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์—ฐ๊ด€์„ฑ์— ์žˆ์–ด ์›์ธ์ด ์กด์žฌํ•˜๊ณ  ๊ทธ์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ์ธ์ง€๋Š” ์•Œ ์ˆ˜ ์—†๋‹ค. 

์ธ๊ณผ๊ด€๊ณ„๋Š” ์ƒ๊ด€๊ด€๊ณ„์— ํฌํ•จ๋˜๋Š” ๊ด€๊ณ„์ด๋‹ค. 

 

  • Cost function์ด๋ž€?

์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์— ๋Œ€ํ•œ ์˜ค์ฐจ์— ๋Œ€ํ•œ ์‹. ๋˜ํ•œ ๋น„์šฉ ํ•จ์ˆ˜๋Š” ์˜ค์ฐจ ํ‘œํ˜„์—์„œ ๋‚˜์•„๊ฐ€ ์˜ˆ์ธก๊ฐ’์˜ ์˜ค์ฐจ๋ฅผ ์ค„์ด๋Š” ์ผ์— ์ตœ์ ํ™”๋œ ์‹์ด์–ด์•ผ ํ•œ๋‹ค. ํšŒ๊ท€๋ฌธ์ œ์˜ ๊ฒฝ์šฐ, MSE๊ฐ€ ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ ์ƒํ™ฉ์—์„œ, ์„ ํ˜• ํšŒ๊ท€๋ฅผ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์—์„œ์˜ ํ•™์Šต์€ ๋น„์šฉํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜์ธ W(๊ฐ€์ค‘์น˜)์™€ b๋ฅผ ์ฐพ๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด์•ผํ•œ๋‹ค. 

 

์ด๋•Œ ์‚ฌ์šฉ๋˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ Optimizer, ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๊ทธ์ค‘์—์„œ๋„ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ 

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Gradient Descent)๊ฐ€ ์žˆ๋‹ค.

 

๊ฐ€์ค‘์น˜ W๋งŒ์„ ์‚ฌ์šฉํ•œ y=Wx๋ผ๋Š” ๊ฐ€์„ค์„ ๊ฐ€์ง€๊ณ  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ˆ˜ํ–‰ํ–ˆ์„ ๋•Œ, W์™€ cost(W)์™€์˜ ๊ด€๊ณ„๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

๊ธฐ์šธ๊ธฐ W๊ฐ€ ๋ฌดํ•œ๋Œ€๋กœ ์ปค์ง€๋ฉด cost์˜ ๊ฐ’ ๋˜ํ•œ ๋ฌดํ•œ๋Œ€๋กœ ์ปค์ง€๊ณ , ๋ฐ˜๋ฉด W๊ฐ€ ๋ฌดํ•œ๋Œ€๋กœ ์ž‘์•„์ ธ๋„ cost์˜ ๊ฐ’์€ ๋ฌดํ•œ๋Œ€๋กœ ์ปค์ง„๋‹ค. ๋ชจ๋ธ์ด ํ•ด์•ผํ•˜๋Š” ์ผ์€ cost๊ฐ€ ๊ฐ€์žฅ ์ตœ์†Œ์˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ํ•˜๋Š” W๋ฅผ ์ฐพ๋Š” ์ผ์ด๋‹ค.

 

cost function

 

๊ธฐ๊ณ„๋Š” ์ž„์˜์˜ ๋žœ๋ค๊ฐ’ W๊ฐ’์„ ์ •ํ•œ ํ›„ ๊ฐ€์žฅ ์ตœ์†Œ๊ฐ’์ธ cost๋ฅผ ํ–ฅํ•ด W๊ฐ’์„ ์ˆ˜์ •ํ•œ๋‹ค. ๊ฐ€์žฅ ์ตœ์†Œ๊ฐ’์— ๊ฐ€๊นŒ์šธ ๊ฒฝ์šฐ ๊ธฐ์šธ๊ธฐ๋Š” 0์ด ๋˜๋ฉฐ, ๋น„์šฉํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

Cost function 

 

๊ทธ๋ฆฌ๊ณ  ๋น„์šฉ์„ ์ตœ์†Œํ™”ํ•˜๋Š” W๋ฅผ ๊ตฌํ•˜๊ธฐ์œ„ํ•ด w๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

 

๊ทธ๋Ÿฌ๋‚˜ classification์—์„œ๋Š” ๋น„์šฉํ•จ์ˆ˜๋กœ MSE๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ ์ด์œ ๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์— ๋น„์šฉํ•จ์ˆ˜๋ฅผ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ๋กœ ํ•˜์—ฌ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆฌ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์—์„œ MSE๋ฅผ Cost function์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด, GCD์‚ฌ์šฉ์‹œ ์ž˜๋ชป๋œ ์ตœ์†Œ๊ฐ’์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค. 

 

 

๊ฒฐ๋ก ์ ์œผ๋กœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์—์„œ ์ฐพ์•„๋‚ธ ๋น„์šฉํ•จ์ˆ˜๋ฅผ Cross entropy ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๋ฉฐ, ์†Œํ”„ํŠธ ๋งฅ์Šค ํšŒ๊ท€์˜ ๋น„์šฉํ•จ์ˆ˜์ด๊ธฐ๋„ ํ•˜๋‹ค. 

 

  • one-hot encoding์ด๋ž€? 

์›-ํ•ซ ์ธ์ฝ”๋”ฉ์€ ๋‹จ์–ด๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ํ‘œํ˜„ ๋ฐฉ๋ฒ•์ด๋‹ค. ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์€ ๋‹จ์–ด ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๋ฅผ ๋ฒกํ„ฐ์˜ ์ฐจ์›์œผ๋กœ ํ•˜๊ณ , ํ‘œํ˜„ํ•˜๊ณ ์ž ํ•˜๋Š” ๋‹จ์–ด์˜ ์ธ๋ฑ์Šค์— 1์„, ๋‹ค๋ฅธ ์ธ๋ฑ์Šค์—๋Š” 0์„ ๋ถ€์—ฌํ•˜๋Š” ๋‹จ์–ด์˜ ๋ฒกํ„ฐ ํ‘œํ˜„ ๋ฐฉ์‹์ด๋‹ค. 

 

๋ฐ˜์‘ํ˜•