分析：Twitter 的众包事实核查实验揭示了问题

分析

Poynter 的一项分析发现，不到一半的 Birdwatch 用户包含消息来源，而且许多事实核查笔记包含党派言论。

Twitter 的 Birdwatch 算法 2 月 14 日版本放大了一些带有误导性信息的注释。

2 月 5 日，Twitter 标记来自有争议的 YouTuber Tim Pool 的帖子那就是说2020年美国总统大选被操纵了。该平台指出，该声明存在争议，并且“由于存在暴力风险”而关闭了参与。

但是，在观鸟，社交媒体平台的众包事实核查实验，根据 2 月 14 日对 Twitter 数据的分析，绝大多数用户表示这条推文没有误导性。大多数 Birdwatch 用户在该工具中表示，他们发现这些支持揭穿声明的注释很有帮助且信息丰富。

“根据 TIME 的官方（原文如此）消息来源，有一个组织良好的秘密参与者团体在一个影子组织中，这听起来像是一个阴谋集团，他们共同努力影响选举，支持乔·拜登，”一篇笔记写道。虽然用户包含指向时代杂志的一篇文章确实使用了“阴谋集团”和“阴谋”之类的词，这篇文章的背景——强大的团体在幕后工作以保护选举的完整性——已经丢失了。

这观鸟算法，旨在显示有用的注释，为“事实检查”分配了 0.68 的有用性分数——推文中最高的注释，刚好在算法认为有帮助的前 10% 注释之外2 月 14 日。在本次分析中，2,695 条评论中，有帮助的评论约占 7%，其中不到三分之二包含不是另一条推文的源链接。

2月17日，推特改变了它的算法和池推文上的注释不再被评为有帮助，尽管它们仍列在帖子下方 .在此更改之前，被认为有帮助的阈值较低——与新的 0.84 截止值相比仅为 0.5——并且注释只需要三个评级即可被视为有帮助，按顺序排列优先级并标有蓝色注释。

现在，一条注释必须获得五个评级才能将该推文推入 Birdwatch 中新的“评分有帮助”标签 .在平台数据库中的近 2,700 条笔记中，有 126 条达到了新的门槛——不到 5%。四分之三的新“评分有帮助”笔记包含 Twitter 以外的来源。

这是对 Birdwatch 模型面临的一个问题的及时说明：由看似随机的一群人提供的算法能否准确地“评价”真相？

Birdwatch 在其拥有 1,000 多名用户的试点阶段，允许参与者将推文标记为具有误导性，并添加一个引用来源和/或解释其可能具有误导性的背景的注释。然后，Birdwatch 用户可以根据有用性对这些笔记进行排名（之后，算法接管）。

最终，所有 Twitter 用户表面上都可以在推文下方看到这些注释，但目前，它们仅限于网站的特定部分 . Birdwatch 用户最终还将建立一个声誉评分，该评分将用于帮助算法。

“我们与 Birdwatch 试点项目的目标是建立一个任何人都可以贡献的系统，这自然会提升人们认为有用的信息，”Twitter 产品副总裁 Keith Coleman 在一封电子邮件中说。 “我们相信，谁可以贡献的开放性很重要，并且通过来自不同群体的输入，可以提升最有用的注释。”

但是，看看现在的系统，就会发现事实核查人员对 Birdwatch 提出的挑战：用户缺乏事实核查专业知识，难以创建一种算法来以某种方式显示最有信誉的用户的有用注释，以及关于用户的党派动机的问题。

“鉴于社交媒体平台的两极分化性质以及主流用户对平台提供的此类查询提供反馈犹豫不决，我对这些发现并不感到惊讶，而来自过道两边的积极用户将平台视为宣传他们的叙述的战场其他人，”国际事实核查网络主任 Baybars Örsek 说。

大多数最多产的 Birdwatch 用户的笔记都将批评右派的推文标记为“误导”，而批评左派的推文则标记为“没有误导”。（例如，用户标记了一条推文，上面写着“ 拜登团队对中国态度软弱 ”来自参议员特德克鲁兹和游泳池的推文“没有误导”；尽管新闻周刊文章关于极右翼极端分子和 GameStop 传奇一条推文将唐纳德特朗普总统与国会大厦骚乱联系起来被标记为“误导”和“有害”。）用户的 82 条笔记中只有不到五分之一包含消息来源，其中一些是其他推文。（这个 Birdwatch 用户没有回应采访请求。）

科尔曼说，可以激励 Birdwatch 考虑来自“不同的贡献者”的笔记。此外，评级系统是平台背后的主要驱动力

“我们相信这些将奖励和激励许多人认为有价值的贡献，并解决一个特定群体或意识形态接管 Birdwatch 的风险，”科尔曼说。 “这是我们将在整个试点期间积极开展的工作。”

事实上，在 2 月 17 日的变化之后，算法被评为最有帮助的注释显示出比前一天的迭代更可靠的来源和更少的党派言论。但是，为拥有 1,000 名用户和少于 2,700 条笔记的试点程序更改算法是一回事，一旦 Birdwatch 对所有用户都可用，则更改算法是另一回事——谁知道当用户开始倾注时，算法的功效是否会持续下去进入平台，也许复制了一些最多产的试点参与者的行为。

“我们目前没有具体的扩展时间表，因为我们正在努力尽可能多地学习并在试点规模较小的情况下进行迭代，”科尔曼说。 “我们计划扩大规模，因为我们能够安全地这样做，并且何时有助于改善学习。”

尽管如此，与 Pool 推文下的注释一样，有党派的例子要么误导性信息仍然作为常规音符可见。

五个最活跃的用户中有四个，占总笔记的 10% 以上，与最多产的用户有相似的活动。其中一人声称杰弗里爱泼斯坦的死从未被裁定为自杀。然而，第二多产的 Birdwatcher 在每个注释中都引用了一个来源，包括来自世界卫生组织和 FactCheck.org .

根据他们的 Twitter 简历，前 10 名用户都不是专业的事实核查员或记者。

“事实核查实际上是一项艰苦的工作，因为它对精神上的要求很高，”PolitiFact 主编 Angie Holan 在一封电子邮件中说。 “你真的必须集中精力并克服心理惯性来识别索赔，然后集思广益地揭穿或验证它们的方法。然后你必须继续搜索，然后写下发现。坦率地说，这不是在海滩上度过的一天。如果事实核查员有党派动机，那就会让彻底和公平的努力变得更加困难。”

尽管存在问题，但 Birdwatch 确实会标记错误信息，传统的事实核查人员可能会因为潜在的伤害而错过或选择不检查——这可能有助于填补数字错误信息中的一些空白。在此期间游戏停止传奇，有关该公司股票的错误信息在平台上迅速传播。

斯诺普斯和政治事实没有对有关 GameStop 的声明进行评级，而领导故事评分一个 Reddit 帖子。但在 Birdwatch 上，评分最高的注释——有用性得分为 1.00——标记了一条关于 Reddit 的误导性推文，其中正在进行有关股票的对话。大约有 50 条关于 Reddit、GameStop 和 Robinhood 投资应用程序的笔记，本月早些时候发生了大量交易。

并且 Birdwatch 用户正确标记了一个声称属于弗吉尼亚州参议员 Amanda Chase 的帐户是假的，之后发推文，“......我们在弗吉尼亚州有毒品问题，大麻合法化只会导致更多的大麻过量和死亡......”

众包可以通过检测错误信息使专业事实核查人员的生活更轻松，Örsek 说。

Coleman 表示，Twitter 致力于保持透明度——这使得这种分析成为可能——并结合专家对平台未来的意见。

“通过与来自芝加哥大学 RISC 中心，为了与记者和研究人员举办反馈会议，我们正在努力利用 Twitter 之外存在的大量专业知识和知识，”他说。

Holan 和 Örsek 建议对 Birdwatch 用户进行激励和培训，并聘请专业的事实核查员来审查高级别笔记。

“但我对那些相信他们的用户会为他们免费审核内容的科技公司持怀疑态度，”霍兰说。 “大多数用户并不认为帮助平台运营自己的业务是他们的工作。”