데이터분석(3)
-
유사개발자의 생존기, 그래도 죽으란 법은 없구나
어떤 이야기에서부터 시작을 해야될까. 지난 일지의 내용이 무색할정도로 7월 한달은 너무너무 바빴다. 지난 인턴일지에도 얘기를 했었지만, 나는 지금 비정형 데이터(이미지)에서 텍스트를 추출해 데이터프레임으로 정제 후 데이터 베이스에 저장하는 일련의 과정을 자동화하는 모듈을 구현하고 있다. 기존에는 매일 매일 발행되는 유가 정보들이 담긴 pdf를 사람이 일일이 엑셀 시트에 정리를 했다면, 이제는 이것들을 자동화 하겠다는 그런 취지가 담긴 업무였다. 비정형 데이터에서 텍스트를 추출하는 과정은 일반적으로 (1) 이미지를 인식하여 바운딩박스를 치고(opencv같은 라이브러리들의 역할), (2) 내가 필요한 바운딩박스만을 가져와 텍스트로 변환(tesseract같은 라이브러리들의 역할)으로 이루어지는데, Azure에..
2021.08.08 -
비전공자의 데이터 분석 준 전문가(ADSP) 독학 후기
오랜만(?)에 돌아오는 블로그 포스팅! 오늘은...adsp 합격이라는 따끈따끈한 새소식을 가져와봤습니다 ㅎㅎ 비전공자이지만 나름 데이터 분석에 관심을 가져온 사람으로써, 누구나 이 분야라면 하나쯤은(?)가지고 있다는 자격증이라길래 덜컥! 신청을 했네요. 거두절미하고, 전반적인 준비과정과 시험 후기에 대해 알려드리려 합니다 :) 1. ADSP란? 국가공인 데이터분석 준 전문가 자격증입니다. 응시 자격은 제한이 없으며 객관식 40문제, 주관식(단답형) 10문제로 이루어져 있습니다. 총점이 60점을 넘어야 하고 각 과목 별로 40% 미만 취득시 과락입니다. 과목은 총 3개로 구성되어 있습니다. - 데이터 이해 - 데이터 분석 기획 - 데이터 분석 2. 준비 기간 및 학습 방법 저는 일단 비전공자지만, 통계 관..
2020.12.24 -
데이터 사이언스 인터뷰(1)
p-value란 무엇인가?귀무가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률. P-value는 내가 뽑은 표본평균이 귀무가설에 따라 나올 확률이 몇 %가 되었는가를 찾는 방법이다예를 들어 두 표본 평균의 차이를 검증한다고 할 때, 두 표본 집단의 모집단이 같다는 가정을 전제하여 통계를 진행한다. R-Square의 의미는 무엇인가?결정계수라고 불리며, 회귀모형의 설명력을 표현한 것. 0에 가까울수록 설명력이 낮고, 1에 가까울수록 높다. R-squred는 1-SSE/SST(SSR/SST)로 구할 수 있으며, SST는 Sum of squre Total이며, SSE는 Sum of squre of error이다. SST는 실제값과 예측값, 평균값 사이에 발생한 ..
2020.11.01