업무
1. R&D 연구 과제 수행
지난주와 마찬가지로, 팁스 연구 과제를 수행했다.
1) 분류 모델 fine tuning
지난주부터 multiclass classsification을 위해 여러 머신 러닝 모델들을 연구했었다.
그중 gpt를 분류 모델로써 사용하기 위해, fine tuning을 거쳤는데...
지난주 위 회고에 적었던 내용이 적중!
제외했던 feature를 학습 데이터셋에 추가하자, 정확도가 크게 증가한 모습을 확인할 수 있었다.
그렇게 희망적인 주 초반을 보냈는데... 곧 벽에 부딪히고 말았다.
다른 한 팀원은 동일한 데이터 셋으로, lightGBM을 통한 분류 학습을 진행했다.
Word2 Vec와Kobert를 사용한 word embeding을 통해 자연어 데이터를 벡터화한 후
lightGBM을 학습 및 미세 조정해 정확도를 개선했는데...
해당 정확도가 50%후반~60%초반을 넘어서질 못했다!
연구개발 목표는 AUC 0.7 이상이었기 때문에, 평균적인 정확도가 70%는 나와줘야 하는 상황.
한 모델의 결과가 이 정도였다면, 다른 방향으로 접근하거나 조금 더 미세 조정을 해볼 수 있었을 것 같았다.
하지만 문제는... 나와 팀원의 접근 방식이 아예 달랐다는 점.
→ 서로 다른 두 모델의 정확도가, 둘 다 유사한 수준(60%)이고, 해당 수준 이상이 나오지 않는다는 건...
→ 학습 데이터인, 현재 우리가 수집한 데이터의 문제인 건 아닐까? 하는 생각이 들었다.
2) 유사도를 통한 분류
모델 학습에는 자사 서비스를 운영하며 수집된 데이터 약 20만 건을 사용했다.
하지만 이는... 구현하고자 하는 머신러닝 모델과 정확히 일치하는 데이터라 볼 수는 없었다.
정확히 일치하는 데이터는, 서비스를 운영하는 도중 추가한 기능(상담지)으로 수집되는 데이터였는데...
문제는 해당 기능을 출시한 지 오래 되지 않아, 유의미한 데이터는 약 200여 개 정도밖에 존재하지 않는다는 점.
그러나 Word2Vec를 통한 유사도 분포를 계산할 수 있게 되면서
입력된 자연어를 벡터화해, 가장 높은 유사도의 class를 반환하는 형태로 개발해 보자는 의견을 냈다.
수는 적지만 해당 분류 모델과 밀집하게 연관된 데이터이니만큼, 유의미한 성과를 낼 수 있지 않을까 하는 기대를 품었고...
또 열심히 데이터 전처리를 했다. 하하.
또 다른 방향을 모색해보기로 다짐한 채... 주말을 맞았다.
'lean > 주간 회고' 카테고리의 다른 글
23.09.03~23.09.10 (0) | 2023.09.12 |
---|---|
23.08.27~23.09.03 (0) | 2023.09.06 |
23.08.13~23.08.20 (0) | 2023.08.20 |
23.08.06~23.08.13 (0) | 2023.08.16 |
23.07.30~23.08.06 (0) | 2023.08.16 |