본문 바로가기
728x90
반응형

lean132

23.09.10~23.09.17 업무 1. R&D 연구 과제 수행 1) 변경된 단어 사전 반영 연구 과제를 진행하면서, 단어 사전 구축의 중요도를 뼈저리게 느꼈다. 하지만 한 사이클을 돌려보는 게 무엇보다 시급하다고 판단, 해당 작업은 상대적으로 느슨하게 진행한 채 넘어갔었다. (데이터 하나하나에 대한 라벨링을 손수 해줘야 한다는 점에서... 시간도 오래 걸리고, 나중에 작업해도 별 차이는 없을 거란 판단) 그리고... 그 나중에 를 이번 주에 겪었다. 하하! 단어 사전 구축 자체는 팀원 한 명이 전담해 진행했는데, 이번 주에 완료가 되었다. 단어 사전이 변경됨에 따라, 해당 사전을 참고하고 있는 언어 모델의 결괏값이 바뀌었고, 언어 모델의 결과값을 기반으로 작성된 알고리즘 역시 수정되어야만 했다. 사실 해당 결과값이 수정되리라는 건 .. 2023. 9. 17.
원동력이 조급함이 되서는 안된다. 스타트업의 방식 = 빠르게 성장한다. 스타트업은 빠르게 성장해야만 하며, 빠르게 성장하지 않는다면 스타트업이라 할 수 없습니다. 왜 스타트업에서는 빠른 성장이 필수적인 걸까요? 저는 1)구성원의 입장 과 2)조직의 입장 모두, 빠른 성장을 추구해야만 하기 때문이라 생각했습니다. 빠르게 성장하고자 하는 사람이, 스타트업에 합류한다. 스타트업 팀원들은 왜 스타트업에서 일을 할까요? 스톡옵션, 조직 문화, 혁신, 사용자 피드백 등... 수많은 답변이 나올 수 있습니다. 하지만 그중에서도 공통적인 답변을 꼽는다면, 단연코 빠른 성장이라는 키워드가 포함될 것입니다. 6개월 뒤, 1년 뒤, 3년 뒤, 5년 뒤 팀의 성과가 지금과 비슷하다면, 6개월 뒤, 1년 뒤, 3년 뒤, 5년 뒤 자신의 모습이 지금과 비슷하다면.. 2023. 9. 13.
23.09.03~23.09.10 업무 1. R&D 연구 과제 수행 1) 결과 도출 알고리즘 작성 지난주 작성하던 결과 도출 알고리즘을 이어서 개발했다. 기본적인 로직 자체를 얼추 구현된 상태라서, 리팩토링 및 성능 향상에 초점을 맞췄다. y 데이터의 라벨이 6개밖에 없는 상황이라 미용샵 데이터 매칭이 어렵진 않을 거라 생각했는데... 비정형 데이터(자연어)이다보니 예상보다 많은 예외 상황이 존재했었고, 이를 커버하는 것에 주된 시간을 쏟았던 것 같다. 회고 정말 오랜만에 휴가를 다녀왔다. 그것도 이틀이나! 항상 휴가를 다녀오면... 약간의 여유나 환기가 됐었는데, 이번에는 딱히 그런 기분을 느끼지 못했다. 오히려 휴가 후 다시 책상 앞에 앉았을 때 → 할 일들 때문에 더 조급함을 느꼈달까. 회사 업무 + 개발 공부 + 정보처리기사 시험.. 2023. 9. 12.
23.08.27~23.09.03 업무 1. R&D 연구 과제 수행 역시나 팁스 연구 과제를 수행했다. 1) bert 모델 전이 학습 bert 모델을 통한 분류 모델 학습을 시도했었는데, 정확도가 (드디어) 70%대가 되었다! 어째서 이런 일이 일어났는고 하니... 이전 bert 모델은 사전 학습된 데이터가 하나도 없는, 말 그대로 깡통 모델에 불과했다. 즉 우리가 입력한 학습 데이터 이외에는 아무 것도 학습되지 않았었는데... 문제는 한국어 문장조차 학습이 이뤄지지 않다보니, 자연어로 이뤄진 데이터셋의 학습이 원할하게 이뤄지지 않았던 것. 따라서 klue/roberta-base, klue/bert-base 등 bert 모델을 학습시킨 모델을 사용한 전이 학습을 진행했고, https://huggingface.co/docs/transfor.. 2023. 9. 6.
어려운 개념을 쉽게 이해하는 법 어려운 개념 저는 사회과학대학을 졸업했습니다. 고등학생 때만 해도 천상 문과 계열의 직업이 어울린다 생각했었고, 대학교를 다닐 땐 수학/과학이 조금이라도 연관되는 순간 흥미를 급격히 잃어버리곤 했습니다. 하지만 현재 저는 1) 스타트업 공동 창업자이자 2) 2년 차 프론트엔드 개발자이자 3) AI 관련 정부 과제 연구원으로써 매일매일 새로운 챌린지와 마주하고 있습니다. 이를 헤쳐나가는 과정은 녹록지 않았습니다. (지금은 더더욱!) 당장 풀어야 하는 문제들이 눈앞에 펼쳐져있는데 이를 해결하기 위해선, 난생처음 접하는 단어들과 마주해야만 하는 상황. 문제가 무엇인지조차 이해가 되지 않는 상황. 개념을 설명하는 글을 설명하는 글을 설명하는 글을 찾아야 하는 상황. 이 난감한 상황들에 몇 번이나 부딪혔습니다. .. 2023. 8. 29.
23.08.20~23.08.27 업무 1. R&D 연구 과제 수행 지난주와 마찬가지로, 팁스 연구 과제를 수행했다. 1) 분류 모델 fine tuning 지난주부터 multiclass classsification을 위해 여러 머신 러닝 모델들을 연구했었다. 그중 gpt를 분류 모델로써 사용하기 위해, fine tuning을 거쳤는데... 지난주 위 회고에 적었던 내용이 적중! 제외했던 feature를 학습 데이터셋에 추가하자, 정확도가 크게 증가한 모습을 확인할 수 있었다. 그렇게 희망적인 주 초반을 보냈는데... 곧 벽에 부딪히고 말았다. 다른 한 팀원은 동일한 데이터 셋으로, lightGBM을 통한 분류 학습을 진행했다. Word2 Vec와Kobert를 사용한 word embeding을 통해 자연어 데이터를 벡터화한 후 lightG.. 2023. 8. 27.
23.08.13~23.08.20 업무 1. R&D 과제 수행 기술 연구 과제를 수행했다. 1) 학습 데이터 생성 현재 약 30만 개의 반려 동물 미용 예약 데이터를 보유 중이다. 이를 분류 모델의 학습에 필요한 데이터로 변환했다. 그중 처음부터 정형화된 형태로 수집된 데이터는 아무런 문제가 없었지만... 운영 중인 서비스 및 도메인 특성상 그러지 못한 데이터 들도 많았고, 따라서 이들을 학습 데이터 형태에 맞게 일일이 변환하는 과정을 거쳐야만 했다. 그 과정에서 굉장히 아쉬웠던 점 → 팀 내부에 도메인 전문가가 없다는 사실! 물론 개발자인 나도, 팀원들도 약 3년 정도 해당 도메인에서 서비스를 운영했기 때문에, 기본적인 도메인 지식은 보유한 상태였다. 하지만 해당 도메인에 속한 전문가만큼은 (당연히) 알지 못하는 게 사실이었고, 학습 .. 2023. 8. 20.
23.08.06~23.08.13 업무 1. R&D 과제 수행 틈틈이 진행하던 R&D 과제를 이번 주 통으로 시간을 내 진행했다. 자세한 내용을 작성할 순 없지만... 1) 학습 데이터 생성을 위한 데이터 전처리 2) 한국어 형태소 분석 위 두 가지가 주된 업무였다. 1) 데이터 전처리 언어 모델이 학습할 데이터를 위해, 도메인과 관련된 단어 사전을 구축해야 했고, 이를 위한 데이터 전처리를 진행했는데... 말이 좋아 전처리지, 사실상 기존 데이터를 단어 사전과 일일이 매핑하는, 수작업 노동에 가까운 일이었다! 모델 학습을 위해 반드시 거쳐야 하는 과정임을 알곤 있지만, 눈이 침침... 목이 뻐근... 한건 어쩔 수 없던 일. 하하! 2) 한국어 형태소 분석 자연어 형태의 문장에서 유의미한 값을 얻어내야 했고, 이를 위해 한국어 형태소 .. 2023. 8. 16.
23.07.30~23.08.06 업무 1. 앱 테스트 코드 작성 지난주부터 끙끙거렸던, 컴포넌트 테스트 코드를 작성했다. 여느 문제가 그렇듯 다 해결하고 나니 별 게 없는 것처럼 느껴지지만... 어찌 됐던 현 앱 서비스 내에 테스트 코드를 작성하기 시작했다는 게 꽤나 뿌듯했던 한 주. 앱 내 현존하는 모든 요구사항과 기능들에 대한 테스트 코드를 한 번에 작성할 수는 없기 때문에, 가장 최근에 개발했던 리뷰 관련 페이지 테스트 코드를 작성했다. 테스트가 필요한 항목은 1) 샵이 보유한 모든 리뷰가 뜬다. 2) 각 리뷰는, 해당 리뷰 상태에 알맞은 라벨이 뜬다. 3) 페이지 접속 시 구독 여부와 토글 여부에 알맞은 라벨 문구가 뜬다. 4) 관리 버튼 클릭 시 관리 페이지로 이동한다. 가 있었고, 각 항목에 맞는 테스트 코드를 작성! 그 과.. 2023. 8. 16.
728x90
반응형