2014년 2월 26일 수요일

새로운 형태의 뉴스 검색 서비스 '뉴스 소스 (Beta)'

1. 새로운 뉴스 축약 및 시각화 서비스의 필요성


<그림 1> 미국의 뉴스 이용에 사용 되는 매체 (PEW RESEARCH CENTER, 2012)


스마트 기기의 확산은 사용자들의 뉴스 이용 형태의 많은 변화를 가져왔다. 2012PEW RESEARCH CENTER의 조사에 따르면 미국에서 뉴스 이용은 2006년 이후 모바일 기기로 급격하게 변화되고 있다. 이러한 변화는 <그림 1>에 나타난다.


<그림 2> 국내 온라인 뉴스 이용 시, 주 이용 기기 (DMC, 2013)


DMC 2013의 연구 결과에 의하면 한국의 경우 뉴스의 이용 경로는 온라인이 가장 많은 것으로 조사되었다. 특히, 온라인 뉴스 이용 시 모바일 기기 사용 비중이 절반을 넘는 것으로 조사되었다. 이 결과는 <그림 2> 참조하면 된다. 2012년 한국언론진흥재단에서 조사한 결과에 의하면 온라인 뉴스 이용 시 특정 언론사 사이트에서 뉴스를 이용하기 보다는 포털을 통해 여러 언론사의 뉴스를 함께 소비하는 것으로 나타났다. 이와 같이 온라인 뉴스 이용이 많음에도 불구하고 사용자들의 만족도는 낮은 것으로 드러났다.


<그림 3> 온라인 뉴스 불만족하는 이유 (DMC, 2013)


DMC 2013 의하면 온라인 뉴스에 대한 불만으로는 낚시성 제목, 불필요한 정보 제공, 지나치게 많은 광고, 기사의 전문성 부족, 편향된 기사 등이 지적 되었는데 이는 연예 오락 등 연성뉴스 과잉, 속보 경쟁에 따른 중복 기사 및 검증되지 않은 기사의 증가, 언론사 수익 하락에 따른 광고 남용 및 광고성 기사의 남발, 주요 신문사의 정치적 편향성 등의 결과로 볼 수 있다. 소비자의 불만은 <그림 3> 나타난다이러한 온라인 뉴스의 문제점과 더불어 사용자들의 가독성 문제도 대두되었다. PC에 비해 화면이 작은 스마트 기기에서의 가독성 개선 요구가 커지고 있다. 한국언론진흥재단 조사에 따르면 뉴스 앱 선택 기준 가운데 UI (User Interface)36.6%로 가장 중요한 것으로 드러났다 (한국언론진흥재단, 2012).

이러한 흐름에서 미래부 정보화진흥원 빅데이터 시범사업으로 융기원이 주관이 되어 서울대학교 언론정보학과, 서울대학교 융합과학기술대학원, 서울대학교 컴퓨터공학과 등과 함께 '뉴스소스 (Beta)'을 개발했다. '뉴스 소스'의 기술 구성은 뉴스 정보원 연결망 분석, 자연어 처리, 빅데이터 시스템, 그리고 시각화로 이뤄져있다.


2. 뉴스 정보원 연결망 분석


뉴스는 현실 자체가 아니라 언론이 재구성한 현실을 기술하는 것인데 이 때 가장 중요한 방법이 정보원 활용이다. 정보원의 정의는 뉴스에 등장하거나 인용된 사람, 기사의 배경정보를 제보한 사람으로 언론인이 직접 목격하거나 인터뷰한 인물그리고 넓은 의미에서는 인물뿐만 아니라 문서 등 모든 형태의 정보 출처도 포함된다.

<그림 4> '뉴타운' 검색에 대한 뉴스 정보원 연결망 분석 예시


201312월 한국언론학보 576호에 기재 된 박대민 (서울대학교 언론정보학과 박사수료) 연구원의 '뉴스 기사의 빅데이터 분석 방법으로서 뉴스 정보원 연결망 분석'에 의하면 뉴스 정보원 연결망 분석 (News Source Network Analysis)은 정보원의 중요도를 다양하게 체계적으로 측정할 수 있는 방법을 제공한다. <그림 4>'뉴타운'이라는 검색어에 대한 정보원 연결망 분석의 예시이다.

<그림 5> 뉴스 정보원 연결망 예시


뉴스 정보원 연결망 (News Source Network)은 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 양방향 준연결망 (undirected quasi network)이다. <그림 5>를 예시로 보면 기사 1에서 정보원 A와 정보원 B, C는 같은 기사에 인용 되었으므로 같은 입장은 아닐지 몰라도 서로 의미론적으로 연결이 된다. 또한 정보원 A는 동일 인물이므로 이를 매개로 기사 1과 기사 2가 의미론적으로 연결된다. 이 두 의미론적 관계에 따라 기사 1의 정보원 B, C와 기사 2의 정보원 D, E가 의미론적으로 연결 되는 것이다.

뉴스 정보원 연결망 분석에서는 정보원이 결점이 되고, 공동 인용 여부에 따라 결점 간 연결선이 그려진다. 이렇게 하면 연결정도중앙성은 함께 인용된 정보원 수를 의미하고 연결정도중앙성이 높음 정보원은 많은 정보원이 인용된 기사에서 많이 인용된 정보원, 즉 더 논쟁적인 기사에서 더 많이 인용된 정보원이 된다. 한편 위세중앙성은 연결정도중앙성이 높은 정보원과 함께 인용될수록 중요한 정보원으로 파악된다. 뉴스 정보원 연결망 분석에서는 위세중앙성으로 연결정도중앙성이 높은 정보원을 뒷받침하거나 반박한 정보원을 찾을 수 있다. 정보원의 중요도를 연결망 지표로 파악하는 접근은 정보원의 중요도가 함께 인용된 정보원에 의해 영향을 받는다는 점을 함축한다. 자세한 내용은 다음 링크의 논문을 참조하면 된다.(http://www.dbpia.co.kr/Journal/ArticleDetail/3338206)


3. 자연어 처리

<그림 6> 정보원 추출 및 매칭


자연어 처리는 크게 두 단계를 거친다. 첫 번째 단계는 뉴스의 인용문으로 정보원을 추출하고 이를 매칭 하는 단계이다. 인용 문장에서 룰과 인명사전을 활용하여 인명, 직함, 소속을 추출한다. 인명, 직함, 소속은 문자열 Feature를 형성하고 이를 활용하여 두 개체의 동일 여부를 Support Vector Machine (SVM)을 통해 정보원 매칭 한다. 첫 번째 단계는 <그림 6>을 참조하면 된다.


<그림 7> 다매체 기사의 요약 및 문장의 중요도 결정


 번째 단계는 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사를 제거하고 대표 문장의 중요도를 결정하는 단계이다. 이 과정은 <그림 7>에 나타난다


4. 빅데이터 시스템


<그림 8> 사용 된 데이터 정보


'뉴스 소스 (Beta)'에서는 1990년부터 2013930일까지 서비스 중단 6개 매체 포함해 66개의 매체에 대해서 총 28,507,321건의 신문 기사를 수집하였다 (한국언론진흥재단 카인즈 데이터). 데이터에 대한 구체적인 정보는 <그림 8>에 나타난다.


<그림 9> 빅데이터 분산 처리 알고리즘


1일치 평균 뉴스 기사 수 3,300개 기준일 때 약 21분이 소요 되는 것으로 나타났고 전체 데이터를 처리하기 위해서는 약 49일이 소요 될 것으로 예상 된다. 속보성 기사에 대한 서비스를 위해서는 1일 처리 알고리즘을 분산 알고리즘으로 변경한다. <그림 9>에서 알 수 있듯이 사용 된 분산 처리 알고리즘은 Map-reduce 모델에서 Mapper만 활용하여 Hadoop 분산 Framework를 통해 분산 처리하는 방식이다.


5. 시각화



<그림 10> '뉴스 소스 (Beta)' 웹의 UI (위)와 모바일 UI (아래)


앞에서 언급한 바와 같이 모바일 플랫폼에서 뉴스의 이용에서 시각화는 매우 중요하다. '뉴스 소스 (Beta)'는 웹을 기반으로 한 웹 어플리케이션으로서 브라우저가 동작이 가능한 모든 미디어 기기에 개방되어 있는 만큼 다양한 미디어 기기에 대응할 수 있는 레이아웃 구성이 무엇보다 중요하다. 따라서 본 서비스는 사용자가 사용 중인 미디어기기의 해상도에 따라 적절한 레이아웃을 제공할 수 있는 반응형 웹 (Responsive Web) 기법을 도입하였다. 추가적으로 모바일의 경우에는 모바일 환경에 가장 적합한 UI 레이아웃을 별도로 디자인하여 접속 시 모바일 전용 페이지로 자동 접속 되도록 설계하였다. 각 환경에서의 UI<그림 10>과 같다.


<그림 11> '뉴스 소스 (Beta)' 전문가용 UI


일반 사용자들에게 제공 되는 UI와 더불어 '뉴스 소스 (Beta)'는 전문가에게 제공 되는 전문가용 UI도 개발하였다. 여기에서는 널리 사용되는 그래픽 자바스크립트 라이브러리 APId3.js를 이용하여 정보원 연결망 그래프를 확인 할 수 있다. 전문가용 UI<그림 11>과 같다.


6. 성과 및 서비스

'뉴스 소스 (Beta)'는 서울대 빅데이터 센터 성과 발표회 (2013년 12월), 빅데이터 페어 2013 (2013년 12월), HCI 2014 (2014년 2월) 등에서 발표되었고 서비스는 현재 미디어 가온 (http://www.mediagaon.or.kr/)의 우측 배너를 통해서 제공 받을 수 있다.



(상기 내용은 2013년 미래창조과학부 사업에 의하여 추진한 '빅데이터 활용 스마트서비스 시범 사업 최종 보고서'와 2013년 12월에 발행 된 한국언론학보 57권 6호에 실린 '뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석'의 주요 내용을 발췌했다.)

0 개의 댓글:

댓글 쓰기

차세대융합기술연구원 │ 서울대학교 융합과학기술대학원. Powered by Blogger.