- 사용자가 읽고 싶은 기사를 AI가 미리 예측해서 추천해 주는 뉴스추천 알고리듬 대회에서 정확한 예측으로 준우승한 강유 교수팀
- 세계 최대 규모인 ‘마이크로소프트 뉴스 데이터셋(MIND)’에 저장된 기사와 사용자 로그를 입체적으로 분석해 예측에 성공
- 대회가 진행되는 한달 간 300개 이상의 알고리듬을 개발, 가장 마지막에 만든 알고리듬으로 준우승.
(마이크로소프트의 뉴스 서비스인 msn 사이트. 평범해 보이는 뉴스 화면이지만 AI가 유저의 활동을 분석하여
개인 취향에 맞는 뉴스를 추천하고 있다.)
매 순간 방대한 분량의 뉴스가 쏟아져 정보의 홍수를 이루는 정보화 시대에 개인에게 필요한 뉴스를 AI가 찾아주는 뉴스추천 알고리듬은 필수적인 기능이다.
세계 최대의 소프트웨어 기업인 마이크로소프트사(MS)도 뉴스 추천 알고리듬 연구를 위해 투자를 아끼지 않고 있다. 자사의 뉴스 서비스인 MSN.com에 실린 160K 건의 기사와 100만 유저가 남긴 1500만 건의 로그를 저장해 공개 뉴스 데이터셋 중 세계 최대 규모인 마인드(MIND: Microsoft News Dataset)를 구축하고 뉴스 추천 알고리듬 연구에 활용하고 있다.
마이크로소프트사는 올해 8월 제1회 ‘마인드 뉴스추천대회(MIND News Recommendation Competition)’를 개최하고, ‘마인드’의 데이터를 분석해 가장 정확하게 뉴스를 추천하는 알고리듬을 가려내는 경쟁을 시작하였다. 215개 팀이 참여하여 한 달간 계속된 대회에서 서울대학교 강유 교수팀은 당당히 준우승을 차지하였다.
(왼쪽부터 강유 교수, 전현식 학생, 박승철 학생, 배유나 인턴학생)
강유 교수팀(강유 교수, 전현식 학생, 박승철 학생, 배유나 인턴학생, 딥트레이드)은 자연어로 된 뉴스 기사의 내용을 분석하는 ‘랭귀지 모델’을 자체 개발하고, 유저들의 뉴스 클릭 기록을 동시에 분석하는 입체적인 알고리듬을 개발해 예측에 성공하였다.
“한 달 동안 300개 넘는 알고리듬을 만들었어요. 알고리듬 만들어서 2-3일 동안 학습하게 돌린 다음 테스트하고, 결과 확인하면 수정해서 다시 학습시키고….”
알고리듬 개발을 주도한 전현식, 박승철 학생은 얼굴도 모르는 세계의 경쟁자들과 한달이 넘게 이어진 겨루기(competition)를 해 온 과정을 담담하게 설명했다.
100개 이상의 알고리듬을 만들 동안 ‘리더 보드’에 뜬 순위는 세계 10위권 언저리였다. 그 정도면 우수성은 인정 받겠지만 우승권과는 좁혀지지 않는 거리가 있었다.
그 때 강유 교수가 학습을 더 시켜보자, 고 제안했다. 기존에는 AI에게 뉴스 타이틀 정도만 학습하도록 했는데, 뉴스의 요약본까지 읽어본 다음 예측하게 하자는 제안이었다. 기사 제목을 학습하는데만도 GPU 서버를 2-3일은 돌려야 할만큼 데이터 분량이 방대했지만, 며칠을 더 돌려볼 각오로 뉴스 요약과 카테고리 정보까지 입력했다.
학습 데이터의 양과 질이 달라지자 SNU팀의 순위는 껑충 올라 1위를 찍었다. 신이 난 연구팀은 그 때부터 수정에 수정을 거듭하며 완벽에 가까운 알고리듬을 만들어 갔고, 마감 시간 직전에 올린 가장 마지막 알고리듬이 최고의 점수를 보였다. 시간이 조금만 더 있었더라면 그리고 GPU 서버가 충분했다면 더 좋은 결과를 냈을지 모른다는 아쉬움이 지나갔다.
한 달간 열과 성을 다해 개발한 뉴스 추천 알고리듬은 MS 사의 뉴스 추천 개선에 활용되겠지만, 국제대회에 처음 출전해 준우승을 차지한 실력 있는 연구팀은 서울대의 자산으로 남을 것이다.
지도교수인 강유 교수는 “뉴스 추천은 대부분의 포털에서 제공하는 서비스로, 많은 사람들에게 영향을 주는 매우 중요한 기술입니다. 앞으로 더욱 우수한 추천 기술을 개발하여 개인의 취향에 맞는 정보를 빠르게 제공할 계획입니다“ 라고 전했다 .
마이크로소프트 마인드 뉴스추천대회(링크) https://msnews.github.io/competition.html
자료제공 : AI연구원