23.08.13~23.08.20

728x90

업무

기술 연구 과제를 수행했다.

현재 약 30만 개의 반려 동물 미용 예약 데이터를 보유 중이다.

이를 분류 모델의 학습에 필요한 데이터로 변환했다.

그중 처음부터 정형화된 형태로 수집된 데이터는 아무런 문제가 없었지만...

운영 중인 서비스 및 도메인 특성상 그러지 못한 데이터 들도 많았고,

따라서 이들을 학습 데이터 형태에 맞게 일일이 변환하는 과정을 거쳐야만 했다.

그 과정에서 굉장히 아쉬웠던 점 → 팀 내부에 도메인 전문가가 없다는 사실!

물론 개발자인 나도, 팀원들도 약 3년 정도 해당 도메인에서 서비스를 운영했기 때문에, 기본적인 도메인 지식은 보유한 상태였다.

하지만 해당 도메인에 속한 전문가만큼은 (당연히) 알지 못하는 게 사실이었고,

학습 데이터를 생성하는 와중 의문이 들 때도 이를 시원하게 해결할 방법이 없었다.

따라서... 일단 팀 내부의 기준을 통일해 학습 데이터를 생성한 후, 모델 학습과 결과 분석 사이클을 한 번 돌려보는데 초점을 맞추기로 했다.

→ 이번에 했던 작업을 도메인 전문가와 함께 한번 더 수행해야 한다는 점이... 비효율적이라 아쉬움이 남는다!

연구 과제 당시 개발 계획서 상에서는 추천 모델에 lightGBM을 사용하고자 했다.

그러나 그 사이 인공지능, 특히 언어 모델과 관련된 비약적인 발전이 이뤄지면서...

lightGBM 이외의 다른 머신러닝 라이브러리도 연구해볼 가치가 있단 판단이 들었다.

그중 gpt의 ada 모델을 fine tuning 해 사용해보려 했는데...

현재까지는 큰 성과가 없는 상황.

하지만 lightBGM을 사용한 다른 팀원들과 논의해봤을 때...

내가 이번 학습 데이터에서 제외한 feature가 분류에 결정적인 요인일지도 모른다는 insight를 얻었고,

(해당 팀원은 내가 포함한 feature를 제외했더랬다. 하하!)

다음 주에는 좀 더 나은 성과를 얻을 수 있으리란 기대를 품는 중!

728x90