글: 정다미 학생(서울대학교 융합과학기술대학원)
빅데이터!
기존의 컴퓨팅으로 다루기 힘든 정형 및 비정형의, 대용 데이터를 의미하는 이 용어는 최근 IT업계 뿐 아니라 의료, 관광, 경영 등 전 분야에서 큰 화두가 되고 있습니다. 차세대융합기술연구원(이하 융기원) 공공데이타 연구센터의 '데이터 사이언스 랩’(Data Science Lab)'은 바로 이러한 빅데이터를 다루는 랩입니다. 이 연구실은 데이터를 통해 패턴을 분석하고 유의미한 인사이트(insight)를 도출하는 과학적 방법을 연구합니다. 연구실 구성원으로는 온병원 교수님과 그 밑에 대학원 및 학부 인턴 학생들이 있습니다.
융기원 공공데이터 연구센터의 'Data Science Lab'앞에서 정다미 학생 |
구체적으로 하는 일은 다음과 같습니다. 우선 크롤링 작업을 통해 다양한 소스로부터 데이터를 수집합니다, 필요에 따라 명사나 인명 및 기관명 등만 추출하거나 노이즈를 제거하는 전처리 작업을 수행합니다. 데이터베이스는 그동안 일반적으로 쓰이던 관계형 데이터베이스가 아닌 빅데이터 처리에 알맞은 하둡(hadoop) 등을 사용합니다. 그리고 주로 연구교수님과 대학원생들이 데이터로부터 패턴을 추출할 수 있는 토픽 모델링 등의 기계처리 알고리즘을 연구합니다. 데이터로부터 추출된 인사이트를 사람들이 쉽게 알아볼 수 있어야 의미가 있으므로 비쥬얼라이제이션(visualization) 작업 역시 필수입니다.
Data Visualization 과정 |
저는 원래 문서 검색 쪽에 관심이 많았습니다. 검색 역시 방대한 양의 글자 데이터를 다루는 작업으로 자연스럽게 데이터 사이언스에 대해 배우고 싶었습니다. 본격적으로 인턴생활 하기 전에 함께 프로젝트를 할 기회가 있었습니다. 그 때 3년동안의 모든 뉴스기사를 분석하여 토픽을 뽑는 작업을 했는데 재미있었고 굉장히 유익했었습니다. 그래서 융기원 공공데이터 연구센터의 '데이터 사이언스 랩’(Data Science Lab)에서 2012년 여름동안 인턴 생활을 하게 되었습니다.
인턴하는 동안 저는 ‘스마트 뉴스 애플리케이션 개발’ 프로젝트에 참여하게 되었습니다. 이 앱은 단순히 뉴스기사만 제공하는 것이 아니라 뉴스를 기계적으로 분석하여 새로운 콘텐츠를 제공하는 것을 목표로 하고 있습니다. 쉽게 설명하면, 여성부 장관이 뉴스기사에서 어떤 말을 했었는지를 모아 볼 수 있게 하여, 정재계 주요 인사들이 무슨 말을 했고 뉴스 기사에서 어떻게 인용하였는지를 한눈에 파악할 수 있게 만들고자 했습니다. 또한 같은 뉴스기사에 인용된 사람들을 서로 연결시켜 사람들 사이의 관계망을 그려 제공하였습니다.
1990년부터 2013년 9월까지 28,507,321건의 신문기사에 대해 이러한 작업들을 하는 것입니다. 이 많은 기사에 대해 일일이 수작업으로 정재계 인사 이름과 기관명, 인용문을 추출하고 관계망을 만들려면 얼마나 많은 시간과 비용을 들여야 할까요? 그래서 이 프로젝트는 이 모든 것을 기계적 알고리즘을 바탕으로 수행했습니다.
1990년부터 2013년 9월까지 28,507,321건의 신문기사에 대해 이러한 작업들을 하는 것입니다. 이 많은 기사에 대해 일일이 수작업으로 정재계 인사 이름과 기관명, 인용문을 추출하고 관계망을 만들려면 얼마나 많은 시간과 비용을 들여야 할까요? 그래서 이 프로젝트는 이 모든 것을 기계적 알고리즘을 바탕으로 수행했습니다.
스마트 뉴스 애플리케이션 개발 프로젝트 화면 |
이 프로젝트는 차세대융합기술연구원, 서울대 컴퓨터공학과, 아주대 디지털미디어학부와 외부 개발업체까지 함께한 대형 프로젝트였습니다. 저는 루씬 한국어 Analyzer 수정, 뉴스 서비스 애플리케이션 비교분석, 기사 요약 알고리즘 및 요약 효율성 평가 방법 연구, 사용성 평가를 맡아 수행하였습니다.
가장 먼저 한 루씬(Lucene, 자바 검색라이브러리) 작업은 뉴스 서비스의 ‘검색’에 쓰일 인덱스를 구축하기 위해 한국어 형태 소분석기 ‘꼬꼬마’를 기반으로 하는 루씬의 한국어 analyzer 개발하는 일이었습니다. 한글query 분석을 정확도로 수행하기 위해 따로 한국어analyzer를 개발해 이를 통해 한글로 된 뉴스기사를 오류 없이 인덱싱 하였습니다. 이 인덱싱 작업은 후에 서울대 컴퓨터공학과에서 수행하였던 인명/기관명 추출에도 사용되었습니다.
스마트 뉴스 애플리케이션 개발 프로젝트(인덱싱 작업) |
이 후에 하였던 일은 국내외 모바일 뉴스서비스 애플리케이션을 비교분석하는 작업이었습니다. 현재 서비스 되고 있는 국내외 뉴스서비스를 직접 사용해보면서 UI, IA, 기타 주요 특징들을 분석하였습니다. 뉴스 요약 알고리즘 성능, 커스터마이징 기능, 인터랙션, UI, 소셜기능 등에서 장단점 및 특이사항을 분석하여 뉴스서비스의 최신 트렌드를 뽑았습니다.
세 번째로 한 일은 기사 요약 알고리즘 및 효율성 평가에 대한 연구였습니다. 기사 요약할 때 새로운 문장을 생성하는 것보다는 기사 내에서 중요한 문장만을 추출하여 보여주는 방식을 택했습니다. 중요 문장 추출할 때 문장 중요도는 문장이 포함하는 중요 핵심어에 따라 가중치를 주거나 기계학습, 수학/통계적 기법을 사용해 문장간 상관관계를 분석하여 중요문장을 선별합니다. 여러 알고리즘에 대해 연구하였으나 여러 가지 요인 때문에 앱에서는 뉴스기사요약 기능을 적용하지 못하게 되었습니다. 매우 아쉬웠지만 저에게는 큰 공부가 되었습니다.
사회문제 해결형 기술수요 발굴을 위한 사회문제 키워드 추출 시스템 (논문 1저자로 참여한 정다미 학생) |
대용량의 raw data가 일반 사용자들에게 의미있게 전달되기까지는 너무나 많은 작업들과 연구들이 필요했습니다. ‘데이터 사이언스 랩’에서 직접 빅데이터를 다루는 프로젝트를 하면서 다양한 분야의 사람들의 협력과 그 속의 갈등도 볼 수 있었고, 실제 작업에 참여함으로써 데이터 처리에 관련된 많은 지식을 얻을 수 있었습니다. 빅데이터, 많이 화두가 되는 용어이나 어디에 활용할 수 있을지 여전히 낯선 용어이기도 합니다. 하지만 ‘데이터 사이언스 랩’은 이러한 빅데이터를 가지고 사람들에게 유용한 실제 서비스를 만들어내는 아주 흥미로운 연구실 경험이었습니다.
0 개의 댓글:
댓글 쓰기