Anthropic 公司承认其 AI 模型 Claude 的“Claude Fable” 保护机制存在缺陷,导致模型在某些情况下会生成不准确或误导性的信息。该机制旨在防止模型产生有害或不适当的内容,但实际上却可能被绕过或利用。Anthropic 表示正在积极改进 Claude Fable,以提高其可靠性和安全性。此次事件引发了对大型语言模型(LLM)安全和可控性方面的担忧,以及开发者在设计和部署此类模型时需要采取的措施。
📎 原文:Anthropic apologizes for invisible Claude Fable guardrails | 来源:Hacker News