머신러닝(4)
-
데이터 사이언스 인터뷰(2)
Bias와 Variance의 차이는 무엇인가?Bias란 데이터 내에 있는 모든 정보를 고려하지 않음으로 인해 지속적으로 잘못된 것들을 학습하는 경향을 의미한다.Variance란 데이터 내에 있는 에러까지 모두 고려함으로 인해 실제 현상과 관련없는 것까지 학습하는 경향을 의미한다. bias(편향)이 높다는 것은 실측치와 예측치간의 오차가 벌어진 것을 의미하며, Variance(분산)이 높다는 것은 예측의 범위가 높다는 것을 의미한다. 즉, bias가 높다는 것은 과소적합(underfitting, 꾸준히 틀리는 상황)이며 Variance가 높다는 것은 과대적합(Overfitting, 예측의 분포가 큰 상황)임을 의미한다. 모델에 있어 데이터를 충분히 학습시키지 않을 경우 실제 데이터를 예측하지 못해 Bias..
2020.11.01 -
데이터 사이언스 인터뷰(1)
p-value란 무엇인가?귀무가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률. P-value는 내가 뽑은 표본평균이 귀무가설에 따라 나올 확률이 몇 %가 되었는가를 찾는 방법이다예를 들어 두 표본 평균의 차이를 검증한다고 할 때, 두 표본 집단의 모집단이 같다는 가정을 전제하여 통계를 진행한다. R-Square의 의미는 무엇인가?결정계수라고 불리며, 회귀모형의 설명력을 표현한 것. 0에 가까울수록 설명력이 낮고, 1에 가까울수록 높다. R-squred는 1-SSE/SST(SSR/SST)로 구할 수 있으며, SST는 Sum of squre Total이며, SSE는 Sum of squre of error이다. SST는 실제값과 예측값, 평균값 사이에 발생한 ..
2020.11.01 -
linear/binary classfication 와 sigmoid함수 정의
지난 시간 머신러닝이란 무엇인가?라는 포스팅에서 우리는 회귀에 의한 분류(regression classfication)가 어떻게 되는지 알아봤었다. https://yuldangs-sosolife.tistory.com/53 머신러닝이란 무엇인가? 최근 파란학기를 시작하게 되면서 앱개발을 하게 되었는데 앱에 들어갈 다양한 기능 중에 챗봇이 맘에 들어서 알아보게 되었다. 미국에 있을 땐 CNN모델을 가지고 이미지 모델링을 하는걸 배웠었는데, 챗봇의 경우.. yuldangs-sosolife.tistory.com 회귀 분석에서의 가설 함수는 H(x)=WX였다. 그리고 이러한 가설에 대한 Cost(비용)함수는 아래와 같았다. cost함수는 가상의 값과 실제 값(관측 데이터)간의 차이로, cost 함수에서의 최적점을..
2020.03.21 -
AI인턴 In Irvine(3)
오늘은 다른 날보다 유난히 더 힘든 날... (왜 때문에 6시에 끝나는거야 배고프게 ;ㅅ;) ML을 할 줄 알았는데 느닷없이 서버 파트를 맡게 되서 넘나 당황스러웠던 지난 3일..드디어 어느정도 갈피를 잡게 되었다! 아이패드 최고야..짜릿해..나도 사고싶다.. 한참을 헤매며 backend를 자바로 하느냐 마느냐 말이 많았는데 결국 머신러닝 모델을 db에 저장할 때 파이썬 코드를 보고 자바 스크립트로 옮겨 적는 대참사가 일어날 수 있다는 말에 바로...모든 것을 파이썬에 맞춰 결정하게 되었다^^ 사실 왜 굳이 머신러닝 모델을 서버에 연동 시켜야 되나? 하는 생각이 들었지만 패트릭이 하라길래 그냥 강제로 하게 됨.. SQL Lite이 파이썬과 연동이 가능하다 해서 나말고 다른 서버파트를 맡으신 분이 sql에..
2020.01.08