본문 바로가기
lean/주간 회고

23.08.20~23.08.27

by mattew4483 2023. 8. 27.
728x90
반응형

업무

1. R&D 연구 과제 수행

지난주와 마찬가지로, 팁스 연구 과제를 수행했다.

 

1) 분류 모델 fine tuning

지난주부터 multiclass classsification을 위해 여러 머신 러닝 모델들을 연구했었다.

그중 gpt를 분류 모델로써 사용하기 위해, fine tuning을 거쳤는데...

유레카!

지난주 위 회고에 적었던 내용이 적중!

제외했던 feature를 학습 데이터셋에 추가하자, 정확도가 크게 증가한 모습을 확인할 수 있었다.

 

train/accuracy

그렇게 희망적인 주 초반을 보냈는데... 곧 벽에 부딪히고 말았다.

 

다른 한 팀원은 동일한 데이터 셋으로, lightGBM을 통한 분류 학습을 진행했다.

Word2 Vec와Kobert를 사용한 word embeding을 통해 자연어 데이터를 벡터화한 후

lightGBM을 학습 및 미세 조정해 정확도를 개선했는데...

 

해당 정확도가 50%후반~60%초반을 넘어서질 못했다!

연구개발 목표는 AUC 0.7 이상이었기 때문에, 평균적인 정확도가 70%는 나와줘야 하는 상황.

 

한 모델의 결과가 이 정도였다면, 다른 방향으로 접근하거나 조금 더 미세 조정을 해볼 수 있었을 것 같았다.

하지만 문제는... 나와 팀원의 접근 방식이 아예 달랐다는 점.

→ 서로 다른 두 모델의 정확도가, 둘 다 유사한 수준(60%)이고, 해당 수준 이상이 나오지 않는다는 건...

→ 학습 데이터인, 현재 우리가 수집한 데이터의 문제인 건 아닐까? 하는 생각이 들었다.

 

2) 유사도를 통한 분류

모델 학습에는 자사 서비스를 운영하며 수집된 데이터 약 20만 건을 사용했다.

하지만 이는... 구현하고자 하는 머신러닝 모델과 정확히 일치하는 데이터라 볼 수는 없었다.

정확히 일치하는 데이터는, 서비스를 운영하는 도중 추가한 기능(상담지)으로 수집되는 데이터였는데...

문제는 해당 기능을 출시한 지 오래 되지 않아, 유의미한 데이터는 약 200여 개 정도밖에 존재하지 않는다는 점.

무한 전처리...

그러나 Word2Vec를 통한 유사도 분포를 계산할 수 있게 되면서

입력된 자연어를 벡터화해, 가장 높은 유사도의 class를 반환하는 형태로 개발해 보자는 의견을 냈다.


수는 적지만 해당 분류 모델과 밀집하게 연관된 데이터이니만큼, 유의미한 성과를 낼 수 있지 않을까 하는 기대를 품었고...

또 열심히 데이터 전처리를 했다. 하하.

눈물의 연구노트

또 다른 방향을 모색해보기로 다짐한 채... 주말을 맞았다.

728x90
반응형

'lean > 주간 회고' 카테고리의 다른 글

23.09.03~23.09.10  (0) 2023.09.12
23.08.27~23.09.03  (0) 2023.09.06
23.08.13~23.08.20  (0) 2023.08.20
23.08.06~23.08.13  (0) 2023.08.16
23.07.30~23.08.06  (0) 2023.08.16