AI可以互相欺骗彼此做他们不应该做的事情

2025-06-17 20:00来源:本站

ntext="Article" data-image-id="2404327" data-caption="We don’t fully understand how large language models work" data-credit="Jamie Jin/Shutterstock" />

我们不完全了解大型语言模型的工作方式

Jamie Jin/Shutterstock

AI模型可以互相欺骗,以不服从创作者,并提供制造甲基苯丙胺,建造炸弹或洗钱的违禁指示,这表明防止这种AI“越狱”的问题比看起来要困难得多。

许多公开可用的大型语言模型(LLMS),例如ChatGpt,具有硬编码的规则,旨在防止他们表现出种族主义或性别歧视的偏见,或者以非法或有问题的答案回答问题 - 他们通过从互联网上删除的培训数据从人类那里学到的事情。但是那&地狱;

左文资讯声明:未经许可,不得转载。