Anthropic 为“隐形” Claude Fable 保护机制道歉

Anthropic 公司承认其 AI 模型 Claude 的“Claude Fable” 保护机制存在缺陷，导致模型在某些情况下会生成不准确或误导性的信息。该机制旨在防止模型产生有害或不适当的内容，但实际上却可能被绕过或利用。Anthropic 表示正在积极改进 Claude Fable，以提高其可靠性和安全性。此次事件引发了对大型语言模型（LLM）安全和可控性方面的担忧，以及开发者在设计和部署此类模型时需要采取的措施。

📎 原文：Anthropic apologizes for invisible Claude Fable guardrails | 来源：Hacker News