[1] μ΄μ‚°ν˜•/μ—°μ†ν˜• ν™•λ₯ λΆ„포

2020. 11. 5. 20:59ㆍComputer Science/Machine LearningπŸ’»

λ°˜μ‘ν˜•

ν™•λ₯ μ΄λž€ ν‘œλ³Έκ³΅κ°„ S에 뢀뢄집합인 각 사상에 λŒ€ν•΄ μ‹€μˆ˜κ°’μ„ κ°€μ§€λŠ” ν•¨μˆ˜μ˜ ν™•λ₯ κ°’이 0κ³Ό 1사이에 있고, 전체 ν™•λ₯ μ˜ 합이 1인 것을 μ˜λ―Έν•œλ‹€. 

이 μ€‘μ—μ„œλ„ ν™•λ₯ λ³€μˆ˜λŠ” νŠΉμ •κ°’μ΄ λ‚˜νƒ€λ‚  κ°€λŠ₯성이 ν™•λ₯ μ μœΌλ‘œ μ£Όμ–΄μ§€λŠ” λ³€μˆ˜μ΄λ©°,

μ΄μ‚°ν˜• λ³€μˆ˜μ™€ μ—°μ†ν˜• λ³€μˆ˜μ— 따라 κΈ°λŒ“κ°’μ— λŒ€ν•œ μ •μ˜κ°€ 달라진닀. 

 

 

적λ₯ μ€ μˆ˜ν•™μ—μ„œ ν•¨μˆ˜μ˜ λͺ¨μ–‘을 μ„€λͺ…ν•˜λ©°, ν†΅κ³„ν•™μ—μ„œλŠ” 1μ—μ„œ λΆ€ν„° 4κΉŒμ§€, ν‰κ· μ—μ„œλΆ€ν„° μ²¨λ„λ‘œ λ‚˜λ‰œλ‹€. 

일반적으둜 ν™•λ₯ λ³€μˆ˜ X에 μžˆμ–΄ kμ°¨ 적λ₯ μ€ λ‹€μŒκ³Ό κ°™λ‹€.

 

 


  • μ΄μ‚°ν˜• ν™•λ₯  λ³€μˆ˜μ—μ„œμ˜ ν™•λ₯  뢄포 

ν™•λ₯ λ³€μˆ˜μ—μ„œλ„ μ΄μ‚°ν˜• ν™•λ₯  λ³€μˆ˜λŠ” 0이 μ•„λ‹Œ ν™•λ₯ κ°’을 κ°–λŠ” ν™•λ₯  λ³€μˆ˜λ₯Ό μ…€ 수 μžˆλŠ” 경우이며,

μ΄μ‚°ν˜• ν™•λ₯ λΆ„포 λ‚΄μ—λŠ” λ² λ₯΄λˆ„이 ν™•λ₯  뢄포가 있으며 κ²°κ³Όκ°€ 2개만 λ‚˜μ˜€λŠ” κ²½μš°μ΄λ‹€.

 

반면, κ²°κ³Όκ°€ N번 반볡 λ λ•Œ K번 성곡할 ν™•λ₯ μ— λŒ€ν•œ λΆ„ν¬λŠ” 이항 뢄포이닀.

κ°€μž₯ 운이 쒋을 λ•Œμ—λŠ” N번 λͺ¨λ‘ 성곡할 것이고 κ°€μž₯ 운이 λ‚˜μœ κ²½μš°μ—λŠ” ν•œ λ²ˆλ„ μ„±κ³΅ν•˜μ§€ λͺ»ν•  것이닀. NN번 쀑 μ„±κ³΅ν•œ 횟수λ₯Ό ν™•λ₯ λ³€μˆ˜ XX라고 ν•œλ‹€λ©΄ XX의 값은 0 λΆ€ν„° NN κΉŒμ§€μ˜ μ •μˆ˜ 쀑 ν•˜λ‚˜κ°€ 될 것이닀.

이런 ν™•λ₯ λ³€μˆ˜λ₯Ό **이항뢄포(binomial distribution)**λ₯Ό λ”°λ₯΄λŠ” ν™•λ₯ λ³€μˆ˜λΌκ³  ν•˜λ©° λ‹€μŒκ³Ό 같이 ν‘œμ‹œν•œλ‹€.

 

 

κΈ°ν•˜λΆ„ν¬λŠ” λ°˜λŒ€λ‘œ 성곡확λ₯ μ΄ P인 λ² λ₯΄λˆ„이 μ‹œν–‰μ—μ„œ 첫번째 성곡이 μžˆκΈ°κΉŒμ§€ x번 μ‹€νŒ¨ν•  ν™•λ₯ μ΄λ‹€. 

 

 

λ‹€ν•­λΆ„ν¬λŠ” 세가지 μ΄μƒμ˜ κ²°κ³Όλ₯Ό κ°€μ§€λŠ” 반볡 μ‹œν–‰μ—μ„œ λ°œμƒν•˜λŠ” ν™•λ₯ λΆ„포이닀.

 

 


  • μ—°μ†ν˜• ν™•λ₯ λ³€μˆ˜μ— λ”°λ₯Έ ν™•λ₯ λΆ„포

μ—°μ†ν˜• ν™•λ₯ λ³€μˆ˜λŠ” κ°€λŠ₯ν•œ 값이 μ‹€μˆ˜μ˜ μ–΄λŠ νŠΉμ • ꡬ간 전체에 ν•΄λ‹Ήν•˜λŠ” ν™•λ₯  λ³€μˆ˜λ₯Ό μ˜λ―Έν•œλ‹€. 

κ·Έμ€‘μ—μ„œλ„ κ· μΌλΆ„ν¬λŠ” λͺ¨λ“  ν™•λ₯ λ³€μˆ˜ Xκ°€ κ· μΌν•œ ν™•λ₯ μ„ κ°€μ§€λŠ” ν™•λ₯  뢄포이닀.

반면 μ •κ·œλΆ„ν¬μ˜ 경우 평균이  ΞΌ μ΄κ³  ν‘œμ€€ νŽΈμ°¨κ°€ σ인 x의 ν™•λ₯ λ°€λ„ν•¨μˆ˜λ‹€. 

 

 

ν‘œμ€€ μ •κ·œ 뢄포λ₯Ό λ”°λ₯΄λ €λ©΄ Z식을 μ΄μš©ν•˜λ©΄ λœλ‹€.

 

일반적으둜 톡계 λΆ„μ„μ—λŠ” 크게 2가지 뢄석이 μžˆλ‹€.

1) μ§‘λ‹¨κ°„μ˜ 차이λ₯Ό λ³΄λŠ” 뢄석 그리고 2)관계λ₯Ό λ³΄λŠ” 뢄석.

 

t-λΆ„ν¬λŠ” ν‘œμ€€μ •κ·œλΆ„ν¬μ™€ 같이 평균이 0을 μ€‘μ‹¬μœΌλ‘œ μ’Œμš°κ°€ λ™μΌν•œ 뢄포λ₯Ό λ”°λ₯΄λ©°, ν‘œλ³Έμ΄ μ»€μ Έμ„œ μžμœ λ„κ°€ μ¦κ°€ν•˜λ©΄ ν‘œμ€€μ •κ·œλΆ„ν¬μ™€ λ™μΌν•œ 뢄포가 λœλ‹€. λ˜ν•œ 일반적으둜 두 μ§‘λ‹¨μ˜ 평균이 λ™μΌν•œμ§€ μ•Œκ³ μž ν•  λ•Œ κ²€μ •ν†΅κ³„λŸ‰μœΌλ‘œ ν™œμš©ν•œλ‹€.

 

 

μΉ΄μ΄μ œκ³±λΆ„ν¬λŠ” '변동'에 κ΄€ν•œ 뢄포이닀. 

λͺ¨ν‰κ· κ³Ό λͺ¨λΆ„산이 μ•Œλ €μ§€μ§€ μ•Šμ•˜μ„ λ•Œ λͺ¨μ§‘λ‹¨μ˜ λͺ¨λΆ„산에 λŒ€ν•œ 가섀검정에 μ‚¬μš©λ˜λ©° 일반적으둜 두 집단 ν˜Ήμ€ κ·Έ 이상 κ°„μ˜ λ™μ§ˆμ„± 검정에 ν™œμš©λœλ‹€. 카이제곱 λΆ„ν¬λŠ” λ³€λ™μ˜ λ‹¨μœ„μ™€ 자료수λ₯Ό λ°˜μ˜ν•  수 μžˆλ„λ‘ κ³ μ•ˆλ˜μ—ˆλ‹€. 

 

예λ₯Ό λ“€μ–΄ ν‚€λ₯Ό λΉ„κ΅ν•˜κ³ μž ν•˜λŠ” 두 집단이 cmλ‹¨μœ„μ™€ mλ‹¨μœ„λ‘œ μˆ˜μ§‘μ΄ λ˜μ—ˆλ‹€λ©΄, 두 μ§‘λ‹¨μ˜ 비ꡐ에 μžˆμ–΄ 잘λͺ»λœ κ²°κ³Όκ°€ λ‚˜μ˜¬ 것이닀.(λ³€λ™μ˜ λ‹¨μœ„) 뿐만 μ•„λ‹ˆλΌ λΆ„μ„ν•˜κ³ μž ν•˜λŠ” μ§‘λ‹¨μ˜ μžλ£Œμˆ˜κ°€ ν•œ 집단은 10λͺ…, λ‹€λ₯Έ 집단 100λͺ…μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμ„ 경우 λ˜ν•œ 결과에 μžˆμ–΄ 문제점이 μžˆμ„ 것이닀. 

 

μΉ΄μ΄μ œκ³±λΆ„ν¬λŠ” μžμœ λ„μ— μ˜ν•΄ λΆ„ν¬μ˜ ν˜•νƒœκ°€ κ²°μ •λ˜λ©° μžμœ λ„κ°€ 컀지면 λΆ„ν¬μ˜ λͺ¨μ–‘이 λŒ€μΉ­μ— κ°€κΉŒμ›Œμ§„λ‹€.

μžμœ λ„λŠ” μ§‘λ‹¨μ˜ 규λͺ¨μ™€ 관련이 μžˆλ‹€. λ”°λΌμ„œ μ§‘λ‹¨μ˜ μˆ˜κ°€ μ¦κ°€ν•˜λ©΄ μ •κ·œλΆ„ν¬ λͺ¨μ–‘에 κ°€κΉŒμ›Œμ§„λ‹€. 

 

 

F-λΆ„ν¬λŠ” 카이제곱의 ratioκ°€ λ”°λ₯΄λŠ”, 두 집단간 λΆ„μ‚°μ˜ 동일성 검정에 μ‚¬μš©λ˜λŠ” κ²€μ • ν†΅κ³„λŸ‰μ˜ 뢄포이닀. μΉ΄μ΄μ œκ³±λΆ„ν¬μ™€λŠ” λ‹€λ₯΄κ²Œ μžμœ λ„κ°€ 2개이며, μžμœ λ„κ°€ 컀질수둝 μ •κ·œλΆ„ν¬μ— κ°€κΉŒμ›Œμ§„λ‹€λŠ” νŠΉμ§•μ„ 가지고 μžˆλ‹€. 

 

μžμœ λ„κ°€ μ—¬λŸ¬κ°œμΈ κ·Έλž˜ν”„ 

 

μ§€μˆ˜λΆ„ν¬λŠ” μ–΄λ– ν•œ 사건이 λ°œμƒν•  λ•ŒκΉŒμ§€ κ²½κ³Ό μ‹œκ°„μ— λŒ€ν•œ 연속 ν™•λ₯  뢄포이닀. 

 

 

 


 

λ°˜μ‘ν˜•