๋จธ์‹ ๋Ÿฌ๋‹์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

2020. 3. 3. 22:17ใ†Computer Science/Machine Learning๐Ÿ’ป

์ตœ๊ทผ ํŒŒ๋ž€ํ•™๊ธฐ๋ฅผ ์‹œ์ž‘ํ•˜๊ฒŒ ๋˜๋ฉด์„œ ์•ฑ๊ฐœ๋ฐœ์„ ํ•˜๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ

์•ฑ์— ๋“ค์–ด๊ฐˆ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ ์ค‘์— ์ฑ—๋ด‡์ด ๋ง˜์— ๋“ค์–ด์„œ ์•Œ์•„๋ณด๊ฒŒ ๋˜์—ˆ๋‹ค.

๋ฏธ๊ตญ์— ์žˆ์„ ๋• CNN๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  ์ด๋ฏธ์ง€ ๋ชจ๋ธ๋ง์„ ํ•˜๋Š”๊ฑธ ๋ฐฐ์› ์—ˆ๋Š”๋ฐ,

์ฑ—๋ด‡์˜ ๊ฒฝ์šฐ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ํ•ด์•ผํ•ด์„œ CNN์ด ์•„๋‹Œ RNN๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๋งˆ์นจ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์ œ๋Œ€๋กœ ๊ณต๋ถ€ํ•ด๋ณด๊ณ  ์‹ถ๊ธฐ๋„ ํ•˜๊ณ ,,,๊ธฐ์ดˆ๋ถ€ํ„ฐ ๋‹ค์‹œ ๋‹ค์ง€๊ณ  ์‹ถ์–ด์„œ

์œ ํŠœ๋ธŒ๋ฅผ ์—ฌ๊ธฐ์ €๊ธฐ ๋’ค์ง„ ๊ฒฐ๊ณผ ๊ดœ์ฐฎ์€ ๊ฐ•์˜๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค!

 

https://www.youtube.com/watch?v=TxIVr-nk1so 

๊ฐ•์˜์—์„œ ๋‚˜์˜จ๋Œ€๋กœ ์ด๊ฒƒ์ €๊ฒƒ ๊ณต๋ถ€ํ•ด๋ณด๊ณ , ์ •๋ฆฌํ•ด๋ณด๋ ค๊ณ  ํ•œ๋‹ค!

 

์ฒซ๋ฒˆ์งธ๋กœ, ๋จธ์‹ ๋Ÿฌ๋‹์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€์— ๋Œ€ํ•œ ์งˆ๋ฌธ์ด๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹, ์˜์–ด ๊ทธ๋Œ€๋กœ ํ•ด์„ํ•˜๋ฉด ๊ธฐ๊ณ„ํ•™์Šต์ด๋ผ๋Š” ๋œป์ด๋‹ค.

๊ธฐ๊ณ„ํ•™์Šต์ด ๋ญ์ง€?๋ผ๊ณ  ๋ฌป๋Š”๋‹ค๋ฉด ๊ฐ„๋‹จํ•˜๊ฒŒ, ๊ธฐ๊ณ„๊ฐ€ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” ์˜ˆ์‹œ๋กœ ์ŠคํŒธ๋ฉ”์ผ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ํ•™์Šต์— ๋Œ€ํ•ด ๋‚˜์˜จ๋‹ค.

์ผ์ผ์ด ์ŠคํŒธ๋ฉ”์ผ์„ ๊ธฐ๊ณ„์—๊ฒŒ ์•Œ๋ ค์ฃผ๊ณ  ํŠน์ •ํ•œ ์ŠคํŒธ๋ฉ”์ผ๋งŒ์„ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜

์ด๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ๊ธฐ๊ณ„์—๊ฒŒ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•  ๋ฟ๋”๋Ÿฌ ์–ด๋ ต๋‹ค.

(ํ”„๋กœ๊ทธ๋ž˜๋จธ๊ฐ€ ์ผ์ผ์ด ์ฝ”๋”ฉํ•˜๊ธฐ์—” ์–ด๋ ค์›€)

๋”ฐ๋ผ์„œ, ๊ธฐ์กด์— ์žˆ๋Š” ์ŠคํŒธ๋ฉ”์ผ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ํŠน์ง•์„ ํ•™์Šตํ•œ ํ›„  ์œ ์‚ฌํ•œ ์ŠคํŒธ๋ฉ”์ผ์„ ๋ณด์•˜์„ ๋•Œ๋„ 

์•…์„ฑ๋ฉ”์ผ์ด๋ผ ํŒ๋‹จํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ ์ฆ‰ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๋ฐ”๋กœ ๋จธ์‹ ๋Ÿฌ๋‹์ด๋ผ ๋ถ€๋ฅธ๋‹ค.

 

์ด๋Ÿฌํ•œ ํ•™์Šต๋ฐฉ๋ฒ•์€ ๋‘๊ฐ€์ง€๋กœ ํฌ๊ฒŒ ๋‚˜๋‰˜๋Š”๋ฐ, 

์ฒซ๋ฒˆ์งธ๊ฐ€ ์ง€๋„ ํ•™์Šต(Supervised learning)์ด๋‹ค.

์ง€๋„ ํ•™์Šต์€ ๋ผ๋ฒจ๋ง์ด ๋œ training set์„ ๊ฐ€์ง€๊ณ  ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ•์•„์ง€์™€ ๊ณ ์–‘์ด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ์„ ํ˜•์„ฑํ•  ๊ฒฝ์šฐ 

'๊ฐ•์•„์ง€'๋ผ๋Š” ๋ผ๋ฒจ๋ง์„ ํ•œ ์‚ฌ์ง„ ๋ฐ์ดํ„ฐ์…‹๊ณผ '๊ณ ์–‘์ด'๋ผ๋Š” ๋ผ๋ฒจ๋ง์ด ๋˜์–ด์žˆ๋Š” ์‚ฌ์ง„ ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ€์ง€๊ณ 

๊ธฐ๊ณ„๊ฐ€ ํ•™์Šตํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

๋‘๋ฒˆ์งธ๋Š” ๋น„์ง€๋„ ํ•™์Šต(Unsupervised learning)์ด๋‹ค.

๋น„์ง€๋„ ํ•™์Šต์˜ ๊ฒฝ์šฐ ๋ฏธ๋ฆฌ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ

์ผ๋ฐ˜์ ์œผ๋กœ ์›Œ๋“œ ํด๋ผ์šฐ๋“œ๋‚˜ ๊ตฌ๊ธ€ ๋‰ด์Šค ๊ทธ๋ฃนํ•‘์— ์‚ฌ์šฉ๋œ๋‹ค.

 

๊ทธ์ค‘์—์„œ๋„ ์ง€๋„ํ•™์Šต์€ ์ด๋ฏธ์ง€ ๋ผ๋ฒจ๋ง์ด๋‚˜ ์ด๋ฉ”์ผ ์ŠคํŒธ์ฒ˜๋ฆฌ, ์„ฑ์  ์˜ˆ์ธก ๋“ฑ์— ์“ฐ์ธ๋‹ค.

๊ทธ์ค‘์—์„œ๋„ ์„ฑ์  ์˜ˆ์ธก๊ณผ ๊ฐ™์€ continuous scale์˜ ๊ฒฝ์šฐ ( 0,1 ๋กœ ๋‚˜๋‰˜์ง€ ์•Š๋Š” ์—ฐ์†์ ์ธ ์ˆซ์ž์˜ ๊ฒฝ์šฐ)

regression function์„ ์‚ฌ์šฉํ•œ๋‹ค.

์ž…๋ ฅ๊ฐ’(x)์— ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’(y)์„ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์ ์˜ ์„ ์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋ฉฐ,

์ด๋Ÿฌํ•œ learning algorithm์€ ํŠน์ •ํ•œ ๊ทœ์น™์— ๋”ฐ๋ผ ๋งค ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•ด ์˜ˆ์ธก๋˜๋Š” ๊ฒฐ๊ณผ๊ฐ’์„ ๊ฐ€์ง„ ํ•จ์ˆ˜ H๋ฅผ ์ œ์‹œํ•œ๋‹ค.

๊ทธ๋ฆฌ๊ณ  Hํ•จ์ˆ˜(hypothesis)๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋ ‡๊ฒŒ ํ‘œํ˜„ํ•œ๋‹ค.

(x)=θ0+θ1x

๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ๊ฐ€์„ค ํ•จ์ˆ˜์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•ด์ฃผ๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ loss function(cost)์ด๋‹ค.

๋˜ํ•œ ์ด๋ฅผ ๊ณต์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

๋ฏธ์ฒœํ•œ ํ•„๊ธฐ ใ…œ

๋งŒ์•ฝ cost function์ด ์œ„์˜ ์ด๋ฏธ์ง€์™€ ๊ฐ™๊ณ , ๋งค๊ฐœ๋ณ€์ˆ˜์ธ w๊ฐ€ 1์ด๋ผ๋ฉด cost function์˜ ๊ฒฐ๊ณผ๊ฐ’์€ 0์ด ๋  ๊ฒƒ์ด๋‹ค.

๋งค๊ฐœ๋ณ€์ˆ˜์ธ w์˜ ๊ฐ’์„ ๊ณ„์†ํ•ด์„œ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค๋ฉด cost function์˜ ๊ฐ’์€ ๊ณ„์†ํ•ด์„œ ๋ณ€ํ™”ํ•  ๊ฒƒ์ด๊ณ ,

์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ๊ฑฐ์น˜๋‹ค๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์™„๋งŒํ•œ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‚˜์˜จ๋‹ค.

์ด์ค‘์—์„œ๋„ ๊ฐ€์žฅ๋‚ฎ์€ ์ตœ์ ์  W๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

 W๋ฅผ ์–ด๋–ป๊ฒŒ,์–ผ๋งˆ๋‚˜ ๋ณ€ํ™” ์‹œ์ผœ์•ผ ์ตœ์ €์ ์— ๋„๋‹ฌํ•˜๋Š”์ง€ ์•Œ๊ธฐ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ

Gradient descent algorithm์„ ์ž์ฃผ ์‚ฌ์šฉํ•œ๋‹ค.

W๋ฅผ ๊ณ„์†ํ•ด์„œ ์ˆ˜์ •ํ•จ์œผ๋กœ์จ Cost function์˜ loss๋ฅผ ์ค„์ด๋Š”๋ฐ, 

W๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๊ฐ€์ค‘์น˜ ๊ณต์‹

์—ฌํ•˜ํŠผ ๊ทธ๋ž˜ํ”„์˜ ์–ด๋Š ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋”๋ผ๋„, ์ตœ์ €์ ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

๊ฐ€์ค‘์น˜(w)๊ฐ€ ์˜ค๋ฅธ์ชฝ์—์„œ ์ง„ํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ, ๊ธฐ์šธ๊ธฐ๊ฐ€ ์–‘์ˆ˜์ด๋ฏ€๋กœ W์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์•„์ ธ

์™ผ์ชฝ์œผ๋กœ ์ด๋™ํ•  ๊ฒƒ์ด๊ณ ,

๊ฐ€์ค‘์น˜(W)๊ฐ€ ์™ผ์ชฝ์—์„œ ์ง„ํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์Œ์ˆ˜์ด๋ฏ€๋กœ W์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด์„œ

์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๋ฉด์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ๊ทผ์ ‘ํ•  ๋•Œ๊นŒ์ง€ ์ด๋™ํ•  ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ Gradient descent algorithm์€ ์ตœ์ €์ ์„ ์ฐพ๋Š”๋ฐ ๋งค์šฐ ์šฉ์ดํ•œ๋ฐ,

๊ทธ๋ž˜ํ”„๋ฅผ convexํ•˜๊ฒŒ ํ•˜์—ฌ ์–ด๋Š ์ง€์ ์—์„œ ๋‚ด๋ ค๊ฐ€๋”๋ผ๋„ 

๋ฌด์กฐ๊ฑด ์ตœ์ €์ ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.

 

์•„๋ž˜๋Š” ๋‚ด๊ฐ€ ํ•œ ํ•„๊ธฐ!

 

๋ฐ˜์‘ํ˜•