유사개발자의 생존기, 그래도 죽으란 법은 없구나
어떤 이야기에서부터 시작을 해야될까. 지난 일지의 내용이 무색할정도로 7월 한달은 너무너무 바빴다. 지난 인턴일지에도 얘기를 했었지만, 나는 지금 비정형 데이터(이미지)에서 텍스트를 추출해 데이터프레임으로 정제 후 데이터 베이스에 저장하는 일련의 과정을 자동화하는 모듈을 구현하고 있다. 기존에는 매일 매일 발행되는 유가 정보들이 담긴 pdf를 사람이 일일이 엑셀 시트에 정리를 했다면, 이제는 이것들을 자동화 하겠다는 그런 취지가 담긴 업무였다. 비정형 데이터에서 텍스트를 추출하는 과정은 일반적으로 (1) 이미지를 인식하여 바운딩박스를 치고(opencv같은 라이브러리들의 역할), (2) 내가 필요한 바운딩박스만을 가져와 텍스트로 변환(tesseract같은 라이브러리들의 역할)으로 이루어지는데, Azure에..
2021.08.08