您现在的位置是:首页 > 互联网 > 正文

维基媒体如何使用机器学习来发现遗漏引文

发布时间:2022-07-04 20:40:02编辑:来源:

人工智能的一个更引人注目的用例是自动执行人类不想做或不能做的关键任务。维基百科因其引用而遇到了这样一个问题。通过众包内容,引用对于在网站广阔的文章海洋中提供准确性和可靠性至关重要,但根据维基媒体基金会的博客文章,大约25%的维基百科英文文章缺少一个引用。“这表明,虽然大约有350,000篇文章包含一个或多个'需要引用'标志,但我们可能会遗漏更多,”这篇文章说。

引文需要

任何花时间在维基百科上的人都会看到更多的引用,一般来说会有所帮助,特别是考虑到网站的可验证性政策,部分说明“所有引用,以及其可验证性受到挑战或可能受到挑战的任何材料,必须包括在电子邮件采访中,资深设计研究员,维基媒体“需要引证”研究的合着者JonathanMorgan指出,准确性不是唯一的优势。“引文不仅允许维基百科的读者和编辑对事实进行检查,而且还为那些想要了解更多主题的人提供了起点,”他说。

维基百科面临的挑战不仅仅是增加引用次数;它首先要了解引用的位置。这本身就是一个艰苦的过程。为了解决这个双重问题,维基媒体开发了双重解决方案。第一步是创建一个框架,用于理解引用需要去何处并创建数据集。第二步是培训机器学习模型分类器,以扫描和标记维基百科上数十万篇文章中的项目。

他们是如何到达那里的

一个由36名英语,意大利语和法语维基百科编辑组成的名单上有文本样本,并被要求汇总了为什么需要引用的原因分类,以及为什么不这样做的理由。例如,如果“声明包含统计数据或数据”或“声明包含技术或科学声明”,则需要引用。如果“声明只包含常识”或“声明是关于作为文章主要主题的书/电影的情节或人物”,那么你就不会。

维基媒体研究人员制定了一套指导原则,创建了一套训练递归神经网络(RNN)的数据集。在博客文章中,研究人员说,“我们创建了一个英语维基百科的'特色'文章的数据集,百科全书的标题是最高质量的文章-也是引用最多的文章。”训练相当简单:当给定特征文章中的一行有引文时,它被标记为“正面”,而没有引用的行是“否定的”。然后,基于给定的一个单词的序列根据维基媒体的帖子,RNN能够按90%的准确度对引文需求进行分类。

对于语言学专家来说,分析特别有趣。该模型理解“声称”一词可能是一种意见陈述,而在统计主题中,“估计”一词表示需要引用。

为了使这一过程更进一步,维基媒体研究人员创建了第二个模型,可以为其引用分类增加理由。使用亚马逊的机械土耳其人,他们在人脑中吸引了这项任务,并给了志愿者大约4,000个引用的句子。要求参与者应用八个标签中的一个-如“历史”或“意见”-以显示需要引用的原因。有了这些数据,研究人员修改了他们的RNN,以便将无源句子分配到这八个类别中的一个。

下一步是什么

到目前为止,该模型仅针对英语维基百科内容进行了培训,但维基媒体正致力于将其扩展到更多语言。鉴于数据采集是如何进行的,其他语言的结构存在一些明显的潜在挑战,其结构与英语不同。“我们不必从头开始,但工作量可能因语言而异,”维基媒体基金会的研究科学家和该论文的第一作者MiriamRedi说。“为了训练我们的模型,我们使用'单词向量',即文章文本和结构的语言特征。这些单词向量可以很容易地从维基百科中存在的任何语言的文本中提取出来。“

Redi表示,在某些情况下,他们需要从其他“特色文章”中收集新样本,并且必须依赖使用这些语言的维基百科编辑。摩根补充说,他们有“将我们知道的英语单词与可能需要引用的句子翻译成其他语言”的流程。

即使涉及到一些人工智能,大部分工作也落在了一群志愿者维基百科编辑的肩上。创造大量成千上万的准确引用标志是有益的,但人类将需要一次解决所有问题。但至少现在他们知道从哪里开始。

理想情况下,研究人员认为,这种人工智能可以帮助维基百科编辑了解需要验证信息的位置和原因,并向读者展示哪些内容特别值得信赖。一旦代码是开源的,他们希望它会鼓励其他志愿软件开发人员制作更多可以提高维基百科文章质量的工具。

但摩根说:“在维基媒体运动之外,我们希望其他研究人员(如可信度联盟成员)使用我们的代码和数据来开发检测其他在线新闻和信息来源中的声明的工具。得到证据支持。“

标签:

上一篇
下一篇

最新文章