新闻评论论文哪里有?本文的主要工作内容如下: (1)针对目前立场分析研究领域对日文文本关注度不高和针对性不强的缺点,本文建立了日文新闻评论文本立场分析语料库。本文从雅虎新闻爬取了大量日文新闻评论文本作为语料库构建的来源,在制定了严格的标注规范后,采用隔离标注的形式对语料进行人工标注。使用 Kappa 系数进行了标注结果的一致性检验。语料标注质量的检验结果验证了本文建立的日文新闻评论文本立场分析语料库是真实有效的。该语料库为本文下一步进行基于混合深度神经网络的立场分析模型研究提供了数据支持。
1 绪论
1.3.1 文本立场分析语料库构建
语料库指的是任意数量的语篇的集合[6]。构建立场分析语料库可以支撑立场分析方法的研究。2009 年,Granger S 等[7]构建了国际英语学习者语料库(ICLE),其中包括来自 16 个国家的大学本科生撰写的关于不同主题的 6000 多篇论文。2016 年,Persing I 等[8]整理并标注了 ICLE 语料库中部分论文的立场,确定论文作者对给定命题的认可程度,提出一种用于自动预测论文立场的计算模型。2016 年,SemEval 会议的 Task6:立场分析(Stance Detection)使用了 Mohammad S 等[9]建设的 Twitter 英文数据集。2016 年,Xu R 等[10]受其启发建设了中文微博立场语料库,发布在自然语言处理与中文计算会议(NLPCC)任务中。2017 年,Sobhani P[11]爬取了与 2016 年美国大选相关的英文推文,数据标签为对每位总统候选人的立场。2018 年,Sasaki A 等[12]从 SNS 中抓取了日文的立场分析数据,由 40 多万位用户发布的 1.7 亿条日本推文组成,打破了中英文文本立场数据的局限。2020 年,Sirrianni J 等[13]开发了智能网络辩论系统(ICAS),从中收集了四个话题下的 2 万多条带有立场的英文辩论数据发表在ACL2020 中,探索了立场及其强度极性。2020 年,Conforti C 等[14]构建了金融领域下的英文推特立场分析语料库,用于分析用户对于公司并购交易的意见,在常见的三类立场分类标签的基础上增加了“不相关”这一立场标签。
从文本立场分析语料库构建的角度看,国外研究开展的比较早,语料库所涉及的内容也较广,而国内的文本立场分析语料库数量有限。国内外学者在建立文本立场分析语料库时大多基于中英文上进行,对于日文的文本立场分析语料库研究均相对匮乏。此外,现有的文本立场分析语料库的语料内容主要涉及商品评论、金融政策等,少有学者针对新闻评论文本做出研究。
3 日文新闻评论文本立场分析语料库构建
3.1 语料收集
3.1.1 数据来源
Yahoo!ニュース(雅虎新闻)是日本影响力最大、用户最多的新闻网站,其报道的阅读量远高于其他新闻网站。它支持网民与新闻事件进行互动,即用户可发表对当前新闻的评论,实现了网站与网民的双向交流,是舆情的主要引爆源[54]。新冠肺炎疫情自爆发以来,就聚焦了全世界的目光。目前有关新冠肺炎的相关政策和新闻依旧是民众关心的热点。因此,本文首先确定了“新冠肺炎疫情”这一大主题,然后利用网站中“コメントランキング”(评论排名)这一功能,按照评论数排名观察近一年与新冠肺炎疫情有关的日本社会热点新闻数据。最终在评论排名前十的新闻里确定选择以下三个话题,分别为:东京奥运会按期举行、疫情初期伤亡人数统计不准确、疫苗的开发与接种(下文分别表示为话题 1、话题 2、话题 3)。在确定好三个话题后,分别利用其对应的日文关键词:オリンピック(奥运会)、コロナ人数(疫情人数)、ワクチン(疫苗),在网页中进行相关新闻的搜索,并收集每个新闻下对应的评论。
3.1.2 数据爬取
本文使用 BeautifulSoup 库和 Selenium Webdriver 来进行数据爬取。BeautifulSoup库能从浏览器标签中提取数据,从而实现文档导航、查找、修改等功能。WebDriver是一个基于浏览器的开源自动测试工具。它能够实现自动加载网页并模拟鼠标键盘操作的功能,同时获取相应的页面元素并将其存储在数据库中[55]。
4 基于混合深度神经网络的立场分析模型研究
4.1 面向日文新闻评论文本的立场分析任务
本文研究针对日文新闻评论文本数据展开,旨在分析日文新闻评论文本对于不同立场目标上的立场倾向性。立场分析与情感分析相似,但不完全相同,它可以看做是情感分析的一个子任务。情感分析指的是通过一段文字中的情感词和程度词等来判断这段文字是积极的还是消极的。立场分析首先要确定目标对象,分析说话人对于该目标对象的观点偏向。这个目标对象可能没有被明确地指出来,或者这段文字中还有对其他对象的情感倾斜,同样的情感也可能表达不同的立场。为了更加明确地定义立场分析这一概念,表 4-1 列举出了面向日文新闻评论文本的立场分析样例。表 4-1 中的例子来源于上一章建立的日文新闻评论文本立场分析语料库,即本文后续的实验数据集合。
由表 4-1 可知,相同的话题下可以设置不同的立场目标,这也是话题与立场目标的不同所在。在表 4-1 的例子中,如果将立场目标设为“奥运会延期举行”,则立场为支持。如果将立场目标设为“奥运会按期举行”,则立场为反对。这能够说明相同的日文新闻评论文本在面对不同的立场目标时立场也会有所区别。由此可见立场目标对于立场分析任务的重要性。
4.2 RCNNCT 模型结构
4.2.1 RCNNCT 模型框架
为了更准确地学习到日文新闻评论文本立场分析语料的特征,本文提出了一种基于混合深度神经网络的立场分析模型 RCNNCT 模型,其模型框架图如图 4-1 所示。首先,使用训练好的日文词向量模型,该模型在训练时使用的是日文维基百科中的内容,再利用 Word2Vec 加载出文本的词向量。然后,分别将文本送入到 CNN 和 BiLSTM中获得文本本身的特征,在 BiLSTM 网络后增加一个 CNN 池化层以获得主要特征。由于在立场分析领域,立场目标占据的重要性比重非常大,所以本文又将文本对应的立场目标送入 CNN 中以得到立场目标的卷积特征,在一定程度上优化了模型。为解决梯度消失问题,本文使用了 ReLU 激活函数。最后,将 CNN 和 BiLSTM 提取出来的文本特征、立场目标特征拼接在一起,得到的拼接向量输入到 SoftMax 层进行立场三分类。本文利用了 DropOut 技术以防止过拟合的情况发生。
CNN 主要的结构分为六层:输入层、卷积层、激活层、池化层、全连接层、输出层[47]。输入层需要输入指定长度的文本序列,这个长度需要通过对数据集的分析来选择一个合适的标准。比此标准短的样本需要补齐到标准长度,而比此标准长的样本需要截取至标准长度。最终输入的是文本序列中每个词语对应的词向量表示。
5 总结与展望
5.1 本文主要工作
立场分析即自动判别文本对于某目标对象的立场态度。本文对国内外文本立场分析领域的研究现状进行总结后,发现目前的研究还存在以下问题:(1)现有的文本立场分析语料库大多基于中英文语料展开,语料库内容主要针对的是商品评论、金融政策、辩论主题等领域。围绕日文语料,尤其是面向日文新闻评论文本的高质量立场分析语料研究相对稀缺。(2)现阶段的文本立场分析方法研究的重点多为中英文,对日文文本的立场分析方法研究较为匮乏。目前的文本立场分析方法有传统机器学习和深度学习两种方法。基于传统机器学习的立场分析方法需要人工提取特征,成本过高且出现错误的概率较大。基于深度学习的方法需要大量有立场标签的高质量数据做支撑。为解决以上问题,本文的主要工作内容如下:
(1)针对目前立场分析研究领域对日文文本关注度不高和针对性不强的缺点,本文建立了日文新闻评论文本立场分析语料库。本文从雅虎新闻爬取了大量日文新闻评论文本作为语料库构建的来源,在制定了严格的标注规范后,采用隔离标注的形式对语料进行人工标注。使用 Kappa 系数进行了标注结果的一致性检验。语料标注质量的检验结果验证了本文建立的日文新闻评论文本立场分析语料库是真实有效的。该语料库为本文下一步进行基于混合深度神经网络的立场分析模型研究提供了数据支持。
(2)考虑到深度模型能够自动抽取特征,以及立场目标对于立场分析任务的影响,本文进行了基于混合深度神经网络的立场分析模型研究。混合了 CNN 与 BiLSTM神经网络,并在文本特征的基础上融入了立场目标特征,这种混合深度神经网络模型的结构能够更好地学习文本与立场之间的特征关系。本文模型在日文新闻评论文本立场分析数据集上的准确率为 76.55%,权重平均 F1值为 75.95%。实验结果表明,混合深度神经网络模型并加入立场目标特征的立场分析方法能够有效地应用于日文新闻评论文本立场分析语料中。
参考文献(略)