NLP and others
21 November 2021
부스트캠프 AI Tech 2기 멘토 업무는 이번주로 종지부를 찍었다. 업무가 몰릴 때 종종 스트레스 받기도 했지만 대부분은 즐거운 시간이었고 얻은 것이 많았기에, 약 4개월이 조금 안 되는 시간동안 경험한 일들을 이 글에 기록해보고자 한다 :)
먼저 간단한 소개를 해보자면, 부스트캠프 AI Tech는 네이버 커넥트 재단에서 설립한 AI 학습 온라인 캠프이다. 올해 초에 진행되었던 1기에 이어 하반기에는 2기가 현재 진행중이다. 참여자는 캠퍼, 멘토, 마스터로 구성되는데, 각각 수강생, 조교, 강사에 해당한다고 생각하면 쉽다. 캠퍼 분들은 서류 심사와 딥러닝 지식 관련 시험을 치른 후 선정되어 들어오신 것으로 아는데, 대부분 비전공자 또는 학부생으로 이루어져있는 듯 하다. 캠퍼는 부스트캠프 AI Tech(이하 부캠)에서 약 4개월의 교육 과정을 거치는데, level 1에 속하는 딥러닝 기본 기초 지식부터 level 3에 속하는 프로덕트 서빙과 같은 응용 수업까지 차례로 듣게 된다. 여기서 마스터의 역할은 강의를 설계하고 전반적인 자료를 준비하는 데 있고, 멘토는 강의 제작의 보조 업무를 돕고 교육적인 부분에서 캠퍼들을 직접적으로 돕는 역할을 한다. 신규 강의의 멘토는 직접적인 멘토링 업무는 거의 없는 편인 대신 제작 일이 많고, 기존 강의의 멘토는 직접적인 멘토링을 매주 진행하는 대신 업무 제작에는 거의 참여하지 않아도 된다. 내가 멘토로 속해있는 NLP 데이터제작 강의의 경우 2기에 신규 제작된 강의로 나는 제작 멘토로서 참여하게 되었다.
나는 이번 2기의 신규 강의인 데이터제작(NLP)의 제작 멘토로 참여했고, 해당 강의의 다른 두 멘토분들과 함께 다음과 같은 업무를 맡았다:
강의 제작 보조 업무를 완수하기 위해선, 8월 초부터 강의가 릴리즈 되는 시점인 11월 초 전까지 매주 미팅과 스터디를 진행하며 꽤 알찬 시간을 보냈다. 나 또한 Sogou에 있을 때 자연어 데이터를 많이 구경하고 만져보긴 했지만, 데이터 제작을 체계적으로 진행해본 적은 없었기 때문에 새로 배운 내용이 많다. 가령 데이터제작 가이드라인이 무엇이며 좋은 가이드라인은 어떻게 작성하는지, 많은 사람들이 모여 데이터 어노테이팅 진행할 때 어려운 점이 무엇인지, 자연어 데이터 제작에는 어떤 도구들이 사용되는지, 이렇게 제작된 데이터를 어떻게 합리적으로 평가할 수 있는지 등, 모두 처음 배운 내용들이었다. 매주 Stanford 자료나 논문으로 토론하는 스터디 시간을 가졌지만 강의에 어떻게 적용되는지는 막연했던 것 같다. 강의 제작 단계에서는, 이 문제들은 나 또한 이제 이론적으로 처음 배웠는데 캠퍼 분들의 질문에 대한 답을 잘 할 수 있을까 라는 걱정을 많이 했었다. 다행히 데이터 제작 경험이 풍부한 마스터님과 멘토 한분이 계셔서 스터디와 제작이 순조롭게 진행될 수 있었고 어렵지만 많이 배운 시간이었다.
강의 특성상 미션 코드를 짜는 등의 practical한 업무는 거의 없었다. 데이터제작 미션은 말 그대로 캠퍼들이 주어진 코퍼스를 이용해서 RE 데이터를 직접 제작해보고, 모델 파인튜닝에 사용해보면서 데이터의 유효성을 검증하는 것이었다. 여기서 캠퍼들에게 제공할 코퍼스 준비는 저작권 이슈로 위키피디아 데이터를 사용할 수밖에 없었다. 멘토 한명당 6-7개의 토픽을 맡아 각각 토픽의 위키피디아 문서를 모아야 했는데, 한국어 위키피디아는 생각보다 문장 수가 많이 안나와서 애를 좀 먹었다. 가령, 내가 맡았던 토픽 중 하나인 “심리학” 관련 문서인 “무의식”에는 95개의 문장이, “감정”에는 고작 10개의 문장이 있을 뿐이었다. 그래서 토픽에 따라 거의 50개 가까운 문서를 모아야 목표치인 2천개 이상의 문장을 모을 수 있었다.
자연스럽게 멘토들의 멘토링 역할 분야도 나뉘었는데, 강의 영상과 자료 피드백를 맡았던 나는 강의 관련 부분을, 미션에 쓰일 소스 데이터를 수집하고 1차 가공을 진행 하신 멘토님이 데이터 프로세싱 관련 부분을, 데이터 제작 경험이 풍부해 미션을 대부분 설계한 멘토님이 가이드라인 관련 부분의 Q&A를 담당하게 되었다.
그리고 11월 8일에 level 3에 속하는 데이터 제작 강의가 릴리즈되었다. 여러모로 정신 없던 한주였는데, 2차 백신을 접종하기도 했고, 그 다음주엔 내가 발표하는 오피스아워 날이 있기도 했으며, ACL 데드라인까지(막판에 교수님이 공저자로 급 투입하신…) 겹쳐있었다. 그와 동시에 언제 올라올지 모르는 캠퍼분들의 Q&A에 빠른 시간에 답하기 위해 수시로 슬랙과 부스트코스 사이트를 열어봤다. (생각보다 많이 없어서 최종적으로 나의 답변 수는 5개 미만이었다.)
중요한 업무 중에 하나인 미션 피드백은 주말을 이용해 진행했는데, 캠퍼들이 제출한 가이드라인과 relation 정의 문서의 중간 산출물에 피드백을 드리는 일이었다. 각자 맡은 6-7개의 토픽에 해당하는 팀들에게 피드백을 드리는 것이었는데, 결과물의 높은 퀄리티에 멘토들이 상당히 놀랐다. 짧은 시간동안 다들 굉장히 열심히 진지한 마음으로 임해주신 것이 느껴졌고, 일부 팀의 가이드라인은 나 또한 뒀다 참고하고싶다는 생각이 들 정도로 완성도가 높았다! 피드백 업무는, RE 데이터 가이드라인 제작에 필요한 relation 정의에 모순이 있거나 부적절한 부분이 있는지, 가이드라인에 부적절한 예시는 없는지, 전체적으로 완성도가 떨어지지 않는지, 등을 위주로 검토하고 피드백을 드렸다. 내가 드리는 피드백이 최종 결과물에 직접적인 영향이 있을 것이라고 생각하니 모든 업무 중 아마도 가장 큰 책임감을 느꼈던 것 같다.
어찌 보면 가장 스트레스를 느꼈던 업무인 오피스아워 발표는 막바지에 진행되었는데… 다른 멘토 두분이 미션과 밀접한 내용의 오피스아워를 진행해 주셨고, 나는 고민 끝에 내가 제일 잘 준비할 수 있는 중국이라는 토픽을 이용하기로 했다. 중국에서 공부하고 일해봤던 경험을 토대로 중국 기업의 딥러닝 업계 현황, 프로덕트에 적용된 자연어처리 기술, 중국의 데이터 위주로 자료를 준비했다. 그렇게 오랫동안(?) 말을 할 일이 너무 오랜만이어서 목소리가 너무 금방 나가서 당황하기도 했었지만… 어쨌든 발표에 이어 Q&A까지 잘 마쳤고 다들 흥미롭게 들어주신 것 같았다. 가깝지만 생소한 중국 업계 이야기를 들으며 도움이 될지 모르겠으나 캠퍼분들 취업하시는 데도 인사이트를 얻어가셨으면 하는 마음이 컸다.
NLP 데이터제작의 경우 마스터분과 함께 일한 멘토분들이 너무 훌륭하셔서 전체적인 프로세스가 정말 수월하게 진행되었고, 말이 멘토지 사실 내가 더 많이 배웠을지도 모른다(!). 그 외 또 다른 느낀점은 운영진분들이 일을 진짜 꼼꼼하게 하신다는 점. 강의 자료에 대한 피드백도 빠르고 업무에 대한 설명을 꼼꼼하게 해주셔서 업무를 처음부터 끝까지 착오 없이 잘 진행할 수 있었다. 그래서 일하는 데 있어서 불편한 점은 없었고 온라인이긴 해도 오랜만에 사회생활해서 즐거웠다. (ㅋㅋㅋ) 업무적인 아쉬움이라면 캠퍼분들과 직접적으로 소통할 기회가 적었다는 것 정도! 일반 멘토가 아닌 제작 멘토였다 보니 따로 멘토링 시간이 없었다. 멘토링 하면서 나 또한 많이 배우고 좋은 자극제가 될 것 같아서 기대했었는데 그 부분은 조금 아쉬웠다. 만약 다음에 또 부스트캠프에 멘토로 참여할 일이 있다면 멘토링 일도 경험해보면 좋겠다.