新算法让“键盘侠”闭嘴，阻止不当言论的传播

2022-04-24 10:06:46 来源: 前瞻网

近日，美国加州大学圣地亚哥分校的研究人员已经开发出算法，以消除在线机器人在社交媒体和其他地方产生的攻击性言论。

聊天机器人使用攻击性语言是一个持续的问题。最有名的例子可能是微软在2016年3月发布的Twitter聊天机器人Tay。在不到24小时内，Tay从Twitter上的对话中学习，开始重复一些在推特上发表的最令人反感的言论，包括种族主义和对女性不尊重的言论。

研究人员说：“作为研究人员，我们正在全面考虑语言模型的社会影响，并解决相关问题。”

研究人员和业界人士已经尝试了几种方法来清理机器人的语音，但都成效甚微。

加州大学圣地亚哥分校的计算机科学家团队首先将有攻击性的提示输入一个预先训练好的语言模型，让它产生有攻击性预言。然后，研究人员对该模型进行了训练，以预测该模型产生有攻击性内容的可能性。他们称此为“邪恶模型”。然后他们训练了一个“好人模型”，这个模型被教导要避免所有被“邪恶模型”高度录用的内容。

研究验证，“好人模型”将“有毒”内容清干净的成功率达到23%。他们在2022年3月在线举行的AAAI人工智能会议上展示了他们的工作。

该研究论文题为"Leashing the Inner Demons: Self-Detoxification for Language Models"，已发表在arXiv上。

前瞻经济学人APP资讯组

论文原文：https://arxiv.org/abs/2203.03072

标签：

您可能也感兴趣: