얼마전 석 달 간 진행된 SOL 프로젝트 2기 과정이 마무리되었습니다. 한국외국어대학교에서 온 두 명의 인턴이 자연어처리(NLP) 전문가를 향한 첫 여정을 LETR팀과 함께 시작했죠. 1기 때와 마찬가지로 참여한 인턴들은 멘토링을 통해 LETR팀 연구원들과 교류하고, 협업하며 실무 프로젝트를 경험하는 시간을 가졌습니다.
SOL 프로젝트는 이런 소중한 경험들을 기록으로 남기고 있는대요. 그래서 이번에도 지난 석 달의 시간을 누구보다 치열하게 보냈을 이윤재, 이호재 인턴을 만나봤습니다. 이 경험을 통해 무엇을 배우고, 느끼고, 생각했는지 두 사람이 들려준 이야기를 확인해보시죠.
여러분이 궁금해요. 간단한 자기소개 부탁드립니다!
윤재: 안녕하세요! SOL 프로젝트 2기에서 ‘번역기 성능평가’ 프로젝트에 참여한 이윤재입니다. 한국외국어대학교에서 영어학과 융복합소프트웨어를 전공했고, 이제 곧 졸업을 앞두고 있네요. 현재 주요 관심사는 언어교육과 자연어처리의 접목, 언어 데이터 분석을 통한 인사이트의 도출 등입니다.
호재: 안녕하세요! 저는 이호재입니다. 저 역시 한국외국어대학교에서 영어학을 전공하면서 자연어처리 공부를 계속해왔고, 이후 고려대학교 대학원에서 학업을 이어갈 예정입니다. 이번 인턴십 이전에는 한국데이터산업진흥원에서 진행한 ‘데이터청년캠퍼스’ 과정에서 챗봇 관련 프로젝트에 참여한 경험이 있습니다.
자연어처리(NLP) 분야에 관심을 갖게 된 이유는 무엇인가요?
윤재: 공군 통역병으로 군 복무를 했는데, 당시에 자연어처리 기술 관련 뉴스를 보고 흥미를 갖게 되었어요. 언어학과 컴퓨터공학을 접목해 언어로 인해 불편을 겪는 사람들에게 직접적으로 도움이 되는 서비스를 만들 수 있다는 점이 매력적으로 느껴졌습니다.
호재: 저는 전산학과 언어학의 경계에 있는 전산언어학에 관심이 많았어요. 인공지능의 발전에 언어학이 기여할 수 있는 부분이 있다고 생각했거든요. 그래서 강의실에서는 언어학을, 그 외 시간에는 주로 컴퓨터를 공부했습니다. 그 과정에서 자연스럽게 컴퓨터쪽에 더 흥미를 느끼게 되어 인공지능과 자연어처리 공부에 더 집중하게 됐습니다.
SOL 프로젝트에 참여하게 된 계기가 있다면 말씀해주세요.
윤재: 2021년 학교에서 진행한 데이터청년캠퍼스 행사에서 트위그팜 LETR팀의 초청 강연을 들었습니다. 이후 SOL 프로젝트 참가자 모집 공고를 보게 되었고요. 실무에서는 어떤 주제들이 연구되고, 어떻게 데이터 구축이 이뤄지는지 확인하고, 실제로 자연어처리 업무까지 경험해 볼 수 있는 좋은 기회라 생각해 지원했습니다.
호재: 현업에서의 자연어처리가 궁금했어요. 사실 이번에 지원하기 전에도 1년 반 동안 책과 프로젝트를 통해 자연어처리를 공부해왔습니다. 하지만 실제 현장에서는 어떤 프로젝트가 진행되는지, 어떤 데이터를 사용하는지, 그리고 어떤 방식으로 협업과 의사결정이 이루어지는 궁금해 지원했습니다.
SOL 프로젝트에서는 무엇을 하셨나요?
윤재: 프로젝트 전 기간에 걸쳐 각자 담당한 부분의 진행 경과를 노션에 기록했습니다. 이것을 매주 월요일 주간 업무 보고서로 제출했고, 수요일 미팅을 통해 피드백을 받으면서 프로젝트를 진행했습니다.
구체적으로는 QE(quality estimation), n- gram 기반 평가척도 등, 번역기 성능 평가 척도에 대한 선행 논문을 찾아보는 것부터 시작했어요. 다음으로 HTER(translation error rate with human-targeted reference), DA(direct assessment) 등 인간에 의한 성능평가 척도를 먼저 정한 후 프로젝트에 활용할 병렬 말뭉치 데이터를 구축하고, 정제했습니다. 이후 QE 모델 훈련도 일부 담당하면서 테스트 결과를 확인하고, 최종보고서에 반영하는 것으로 마무리했습니다.
호재: 저는 ‘번역기 품질 평가’를 자동화할 수 있는 모델을 조사하고, 개발했습니다. 우선 ‘번역 품질’에 대한 고민을 시작으로 어떻게 딥러닝을 이용해 자동화할 수 있을지 찾아보았습니다. 이 과정에서 의미 유사도를 기반으로, 그 중에서도 BERT Score와 Sentence-BERT를 이용하면 되겠다는 결론을 내렸어요.이후 모델링부터 파인 튜닝까지 진행했고, 다양한 상황을 가정하여 모델이 번역문의 품질을 어떻게 평가하는지 실험하고 관찰했습니다.
팀원들과 함께 프로젝트를 진행하는 것은 어땠나요?
윤재: 프로젝트의 방향 설정과 명확한 업무 분담이 얼마나 중요한지 경험으로 배울 수 있었습니다. 그 과정에서 많이 반성하기도 했고요. 또한 학교에서 배웠던 인공지능 및 자연어처리와 실제 현업에서 필요한 지식 사이의 차이를 느낄 수 있었고, 인턴십 이후 무엇을 보완해야할지 새롭게 방향을 설정하는 계기가 되었습니다.
호재: 무엇보다 협업과 소통이 중요하다는 것을 실감할 수 있었어요. 혼자서만 열심히 개발하는 것보다 생각한 내용을 공유하고 토의했을 때, 이전에는 생각하지 못한 좋은 방향으로 흘러갈 수 있다는 것을 자주 느꼈거든요. 그래서 다른 사람의 의견은 열심히 듣고, 제 의견도 적극적으로 말하려 노력했습니다.
프로젝트를 마무리하며 가장 기억에 남는 일은 무엇인가요?
윤재: 전처리가 된 데이터라도 병렬 말뭉치의 특성상 세심한 정제가 필요하다는 것을 깨달은 것입니다. 정제 중 실수를 하거나, PyTorch등 익숙하지 않은 라이브러리를 사용하는 과정에서 에러가 있는 등 우여곡절도 많았으나, 다행히도 주위의 도움 덕분에 조금씩 해결할 수 있었죠. 마지막으로 최종 보고서를 작성하고, 전체 프로젝트를 조망해 보면서 큰 성취감까지도 느낄 수 있었습니다.
호재: 저희 프로젝트가 다국어 모델을 기반으로 합니다. 신기한 마음에 한국어, 영어, 일본어 등 다양한 문장을 넣어봤더니 의미가 유사한 문장들은 실제로 높은 점수가 나오는 것이 흥미로웠죠. 어디까지 가능할까 궁금해 중국어, 러시아어, 프랑스어 등 학교의 다양한 언어 전공 친구들에게 연락해 여러가지 해당 언어로 된 문장을 받아 모델에 넣어봤습니다. 그리고 다 같이 결과를 보면서 신기해했던 일이 아직까지 기억에 남아있네요😂
프로젝트를 마무리하며 특별히 한 마디 남기고 싶은 사람이 있다면?
윤재: 먼저 팀원인 호재님께 미안함과 고마움을 함께 전합니다. 데이터 정제 중 실수로 전체 일정에 차질이 있기도 했고, 실제 구현 단계로 들어가면서 바로 이해되지 않는 부분도 많았거든요. 어려움을 겪을 때마다 호재님과 이야기하면서 많이 배우고, 올바른 방향을 찾아갈 수 있었습니다.
또한 LETR팀 연구원이자 저희 멘토로서 많은 도움을 주신 김현아 매니저님과 고원희 매니저님께도 감사드립니다. 데이터셋 구축 및 평가척도 선정에 관해 다양한 각도에서 조언해주시는 등 여러모로 배려해주신 덕분에 잘 마무리할 수 있었습니다.
마지막으로 오리엔테이션에서 ‘큰 꿈을 꾸라’고 격려해주신 트위그팜 백선호 대표님의 말씀이 아직도 기억에 남아있습니다. 앞으로 큰 꿈에 어울리는 실력을 가진 연구자가 될 수 있도록 노력하겠습니다.
호재: 고원희 매니저님, 상관계수(相關係數, correlation coefficient) 0.71이라는 꿈을 5일 만에 백지화하여 죄송합니다😅😥 데이터청년캠퍼스에서도 멘토로서 많은 도움을 주셨는데, 이번에도 프로젝트 초기에 ‘Multilingual 모델’이라는 핵심 아이디어를 주신 덕분에 잘 마무리할 수 있었습니다, 감사합니다!
앞으로 도전하고 싶은 분야나 이루고 싶은 목표는 무엇인가요?
윤재: 번역기 성능평가 척도는 최근 20년 간 빠른 발전이 이루어진 분야인 만큼 선행 연구가 방대합니다. 이번에도 단기간에 많은 양의 논문을 찾아봐야했고, 최신 AI 아키텍처 및 자연어처리 연구동향도 많이 접할 수 있었죠. 덕분에 이번에 습득한 지식을 바탕으로 더 다양한 자연어처리 프로젝트에 도전해보고 싶은 욕심이 생겼습니다. 앞으로 한국어 방언 번역기 구현, 자연스러운 한국어 텍스트 생성, 문체 변환, 음성 합성 등 다양한 연구를 해보고 싶습니다.
그리고 장기적인 목표는 다양한 이유로 언어 생활에 불편을 겪고 있는 분들에게 도움이 되는 솔루션을 구현해 제공하는 것입니다.
호재: 아직 확실하지는 않지만 우선은 대학원에 진학해 인공지능의 상식 추론과 관련한 연구에 도전해보려고 해요. 좀 더 장기적으로 언어학이 인공지능의 발전에 도움이 될 수 있는 방법을 찾고, 두 분야가 함께 발전할 수 있는 연구를 해보고 싶습니다. 개인적으로도 언어학에서 시작한 공부인 만큼 이후 언어학과 인공지능을 연결할 수있는 연구를 하는 것이 최종 목표입니다.
마지막으로 앞으로 프로젝트에 참여하게 될 후배들에게도 한 마디 남겨주세요.
윤재: 진행과정을 체계적으로 기록해 두는 것이 가장 중요합니다. 주제 하나하나가 방대한 리서치를 필요로 하는 만큼 각자가 조사한 내용을 팀 전체가 피드백 가능한 형태로 제때 기록해 두어야 합니다. 그래야 중간에 길을 잃지 않을 수 있습니다.
또한 시간 관리도 매우 중요합니다. 매일매일 온전히 프로젝트에 투자할 수 있는 시간을 미리 마련해두는 것을 추천합니다.
호재: 끈기있게 도전하시면 분명 좋은 결과가 있을 거예요! 코랩(Google colab) 런타임이 끊겨서 학습한게 사라지더라도, 논문이 무슨 이야기를 하는지 모르겠더라도, ‘오잉👀 이게 왜 안되지?’하는 막막한 상황에 부딪히더라도, … 끈기있게 하나씩 차근차근 풀어나가면 됩니다!
여러분! 좋은 기회 잡으신 것 미리 축하드리고, 모두 프로젝트 잘 마무리하시길 바랍니다!
함께보면 좋은 콘텐츠
내일의 AI 개발자의 씨앗을 심다, SOL 프로젝트 인턴 인터뷰 1내일의 AI 개발자의 씨앗을 심다, SOL 프로젝트 인턴 인터뷰 2내일의 AI 개발자의 씨앗을 심다, SOL 프로젝트 인턴 인터뷰 3