Chapter 3 방법론
품질측정 자동화를 위해 이론기반 토픽모델링(안도현)과 자연어 생성(윤호영)을 이용한 방법을 제안했다. 안도현은 이론기반 토픽모델링은 비지도학습 방식의 기계학습을 통한 군집이 데이터중심에서 오는 몰이론성을 극복하기 위해 반지도학습(semi-supervised learning)을 텍스트마이닝에 적용한 방법이다. 윤호영은 자연어생성은 지도학습 방식의 비효율성을 극복하기 위해 비지도학습 방식으로 다양한 종류의 자연어를 생성하는 방식이다.
3.1 품질측정1: 이론기반 토픽모델링
이론기반 토픽모델링과 분석절차
안도현
품질 측정의 자동화와 한계
전통적으로 언론보도에 대한 품질측정은 인간의 수작업에 의해 이뤄졌다. 사람은 복잡한 알고리듬을 적용할 수 있어 내용 분석의 정밀성이 높기 때문이다. 단점은 일관성이 떨어지고 다룰 수 있는 데이터의 적다는 데 있다. 반면 기계는 일관성이 높고 많은 양의 데이터를 다룰 수 있는 장점이 있지만 단순한 알고리듬을 적용해 정밀성이 떨어진다는 단점이 있다.
이런 이유로 뉴스 품질을 측정하다는 알고리듬(예: 네이버 뉴스 추천 알고리듬)이 실제로 적용하는 기준은 품질이 아니라 사용자의 선호도다. 네이버가 공개한 자동화 방식의 뉴스품질 측정에 따르면 각 뉴스 기사의 제목, 본문 등 콘텐츠 정보와 네이버 뉴스르 이용하는 사용자들의 클릭수와 체류시간을 고려한다 (네이버검색, 2021.7.21). 사용자의 관점에서 만족스럽게 읽은 기사를 고품질의 기사로 판단한다는 것인데, 여기서 만족의 지표는 클릭스와 체류시간이다. 클릭수가 높은데 체류시간이 짧으면 만족도가 떨어진다고 판단한 것이다. 클릭 후 이탈없이 적정시간 동안 체류하며 읽은 기사를 만족도가 높은 기사로서 고품질이라고 분류했다. 그러나, 네이버가 측정지표로 활용한 클릭수와 체류시간은 관심성의 지표로 활용할 수 있지만, 정확성와 구체성의 지표에는 해당하지 않는다.
보다 체계적인 접근은 보도품질에 대한 계량적인 평가요인을 추출하려는 시도다. 오세욱과 송해엽(2020)은 뉴스 트러스트 위원회 활동을 통해 기자명, 기사의 길이, 인용문 수, 제목의 길이, 제목의 물음표 및 느낌표 수, 수치 인용 수, 이미지의 수, 평균 문장의 길이, 제목의 부사 수, 문장 당 평균 부사 수, 기사 본문 중 인용문 비중 등 11개 평가기준을 알고리듬의 요인으로 제시했다. 뉴스 트러스트 위원회의 11개 지표 역시 뉴스의 길이를 제외하면 정확성, 구체성, 및 관심성을 반영하는 지표라 할 수 없다.
품질측정을 온전하게 자동화할 수 없는 이유는 현재 기술로는 언론보도의 상황과 맥락을 기계가 지각할 수 없기 때문이다. 따라서 품질측정을 위해서는 인간의 개입이 불가피하다.
기계를 이용한 분석의 장점은 대용량의 데이터 처리이나 분석의 정밀성이 떨어진다는 단점이 있다. 정밀한 분석은 사람이 직접 수행해야 하지만 대용량의 데이터를 처리할 수 없는 한계가 있다. 두 방법을 혼용해 기계를 이용해 대용량의 데이터에서 기본적인 분석을 수행하고, 이를 토대로 사람이 추가적으로 분석을 수행한다면 대용량의 데이터를 보다 정밀하게 분석할 수 있다.
3.1.1 기존 분석밥법의 한계
3.1.1.1 지도학습(supervised learning)
기계를 이용한 텍스트분석은 크게 지도학습과 비지도학습을 이용한 분류로 구분된다. 지도학습을 이용한 분류를 위해서는 대용량의 학습데이터가 필요하다. 품질측정한다면, 많은 양의 기사를 고품질과 저품질로 분류해 기계에 투입해 학습시켜, 기계로 하여금 고품질 기사와 저품질 기사의 패턴에 대한 알고리즘을 만들게 하는 과정이 필요하다. 많은 양의 학습데이터를 훈련시켜야 하므로 시간과 비용이 큰 장애요인이 된다.
3.1.1.2 비지도학습(unsupervised learning)
비지도학습은 학습데이터 없이 기계가 확률분포를 이용해 유사한 것끼리 군집한다. LDA를 이용한 텍스트군집인 주제모형분석(topic modeling)이 전형적인 비지도학습이다 (Blei et al, 2003). 기계가 확률분포를 통해 유사한 문서끼리 군집하므로 훈련데이터가 필요없다는 장점이 있다. 분석 결과가 데이터중심이므로 사회과학 이론을 적용할 수 없다는 한계가 있다. 분류 결과에 대해서는 사람의 추가적인 해석이 필요하다.
3.1.1.3 사전분석(dictionary analysis)
사회과학 연구자들이 이론에 기반한 기계이용 텍스트분석은 사전 방식이다. 사전은 특정 개념에 해당하는 미리 정의된 범주의 주제어 집합이다. 이론을 기반으로 주제어를 설정하므로 이론비간 텍스트분석에 해당한다. 코딩 체계를 기반으로 주제(예: 거시경제학, 시민권, 의료, 농업)를 설정하고, 각 주제별로 수백 혹은 수천개의 주제어를 만들어 사전을 구성한 다음, 문서에 사전에 등장하는 단어의 빈도를 계산한다. 사전방식 역시 지도학습과 마찬가지로 많은 양의 주제어를 확보해야 하는 한계가 있다.
또한 이미 만들어져 있는 사전을 확보했더라도 사전분석에서는 간단하게 문서의 해당 단어의 빈도 수만 계산하기 때문에 종종 잘못된 결과를 산출한다 (Grimmer & Steward, 2013)
3.1.2 이론기반 토픽모델링
3.1.2.1 반지도학습(semisupervised learing)
지도학습과 비지도학습의 장점을 취한 접근이 반지도학습이다. 대용량의 학습데이터를 마련하기 보다 소규모의 주제어를 기반으로 해당 주제어를 씨앗 삼아 유사한 주제의 문서를 군집하는 방법이다 (Watanabe & Zhou, 2020). 씨앗역할 하는 주제어는 이론과 논리를 통해 설정하기 때문에 이론기반 토픽모델링이라 할 수 있다 (Watanabe & Yuan, 2020. 반지도학습을 지원하는 R기반 패키지로는 seededlda
와 keyATM
이 있다.
와타나베와 저우(2020는 UN연설을 미리 주제별로 분류한 다음 각각 사전분석과 반지도학습을 이용해 텍스트를 분류해 결과를 비교했다. 사전방식 분류는 문장의 25%만을 분류했지만, 반지도학습에 의한 분류는 60% 이상 정확하게 분류했다. 맥락정보를 고려해 씨앗 주제어를 다듬었을 때는 분류 정확도가 70%를 넘겼다. 즉, 단순하게 사전에 있는 단어의 빈도를 계산하기 위보다 LDA로 확률분포를 계산해 군집하는 반지도학습이 더 정확하다.
3.1.3 절차
반지도학습을 이용한 이론기반 토픽모델링 수행 절차는 크게 씨앗 주제어 구성과 토픽모델링 시행 등 2단계로 나눌 수 있다. 각 단계별 구체적인 절차는 다음과 같다.
1. 주제 분류를 위한 이론 설정
해당 분야의 문헌 연구를 통해 주제를 분류할 범주를 설정한다. 감염병보도 맥락에서는 위험-기회 모형에 따라, 분류할 범주를 위험과 기회로 설정했다.
2. 주제어 확인
분석할 말뭉치에 대해 비지도 토픽모델링을 수행해 분석할 말뭉치에 분포된 주제와 각 주제별 주제어의 분포를 확인한다.
3. 씨앗주제어 설정
1단계의 이론를 적용해 2단계에서 확인한 주제어 중 분석목표를 달성하는데 필요한 씨앗으로 활용할 주제어를 설정한다.
4. 반지도 토픽모델링 시행
씨앗 주제어를 투입해 토픽모델링을 시행한다.
이론기반 토픽모델링을 이용한 감염병 분석 사례와 구체적인 분석방법(코드)는 “4장 분석사례”에서 다룬다.
3.2 품질측정2: 자연어 생성
자연어 생성을 통한 감염병 보도 기사 품질 측정의 여정
윤호영
목차
I. 자연어 생성과 품질 측정 : 두 가지 상이한 접근법
I.1. 지도학습 기반 자연어 생성 방식의 품질 평가
I.2. 데이터기반 자연어 생성 방식의 품질 거리 측정 모델
II. 자연어 생성의 두 가지 접근법
II.1. 단어기반 접근법 (Bottom-Up Approach)
II.2. 문장기반 접근법 (Holistic Approach)
III. 문장 유사도 측정
III.1. 레벤슈타인(Levenshtein Distance) 문장 유사도 측정
III-2. 몇 가지 가장 유명한 다른 방법들
IV. 뉴스 품질과 자연어 생성 관련 문헌(Updating)
V. 자연어 생성 예제
V-1. Bi-gram 기반 자연어 예제
V-2. LSTM 기반 자연어 문장 생성
VI. 토론
본문과 코드
윤호영 교수의 “자연어 생성을 통한 감염병 보도 기사 품질 측정의 여정”에 대한 본문과 코드는 별도의 문서로 작성했다. 외부 링크