标题:宪法守护者:Anthropic创新技术降低大型语言模型风险
随着人工智能技术的飞速发展,大型语言模型如Claude等在许多领域展现出惊人的能力。然而,这些模型也带来了一些安全风险,尤其是涉及化学、生物、放射和核(CBRN)相关内容的风险。为了应对这一挑战,OpenAI的竞争对手Anthropic推出了一种名为“宪法分类器”的新概念,旨在将一套类似人类价值观植入大型语言模型,守护人工智能工具免受滥用自然语言提示的侵害。
在应对大型语言模型安全风险的过程中,Anthropic的安全保障研究团队取得了一项重大突破。他们在一篇新学术论文中公布了这一新的安全措施,旨在遏制Claude 3.5 Sonnet的越狱行为。实施宪法分类器后,针对Claude模型的成功越狱情况减少了81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加0.38%,推理开销增加23.7%”。这一成果无疑为大型语言模型的安全防护树立了新的标杆。
大型语言模型在生成大量有害内容方面具有显著能力,但Anthropic以及OpenAI等同行越来越关注CBRN相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。为了验证宪法分类器的价值,Anthropic发布了一个演示项目,向用户发起挑战,让他们尝试突破8个与CBRN内容相关的越狱关卡。这一举措引发了一些争议,有人认为这是在众包安全志愿者或“红队队员”。
然而,Anthropic指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们。他们列举了两种越狱方法:良性释义和长度利用。良性释义是指将有害提示转化为无害表述,例如将“从蓖麻豆糊中提取蓖麻蛋白”改为“提取蛋白质”。长度利用则是通过无关细节迷惑大型语言模型,使其产生混淆。这两种方法在宪法分类器的防御下并未成功,这充分证明了该技术的有效性。
尽管如此,Anthropic也承认在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。这需要Anthropic继续优化其技术,提高分类器的准确性和鲁棒性。
总的来说,Anthropic的宪法分类器是一项创新的技术,旨在保护大型语言模型免受滥用自然语言提示的侵害。通过将一套类似人类价值观植入大型语言模型,宪法分类器大幅降低了风险,为人工智能技术的发展开辟了新的道路。未来,我们期待看到更多类似的技术创新,以保障人工智能工具的安全和可信度。
在文章结尾,我们再次强调大型语言模型的发展潜力巨大,但同时也需要关注其带来的风险。作为人工智能的守护者,我们需要不断创新技术,以应对各种挑战,确保人工智能工具的安全和可信度。而像Anthropic这样的公司,正是走在这样的道路上,为人工智能的发展贡献着力量。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )