瑞士初创公司Lakera发布了一款API,旨在保护企业免受大型语言模型的恶意提示攻击,同时通过互动游戏和分类系统识别攻击类型,致力于数据隐私和安全性。

Lakera的方法包括开发名为“Gandalf”的互动游戏,允许用户通过语言欺骗攻击尝试“黑客”LLM。这个游戏吸引了数百万用户,其中包括网络安全社区的成员。通过分析用户的互动,Lakera已经建立了一个“prompt injection”攻击分类系统,将攻击类型分为10个不同的类别。
这包括直接攻击、越狱、绕过攻击、多提示攻击、角色扮演、模型复制、模糊化(令牌夹带)、多语言攻击和意外上下文泄露。这些攻击类型被转化成统计结构,以帮助企业保护自己免受安全漏洞。
除了防止“prompt injection”攻击,Lakera还专注于其他安全问题。他们致力于防止私人或机密数据不慎泄露到公共领域,以及过滤内容,确保LLMs不提供不适宜儿童的信息。此外,他们还处理LLM引发的误导或事实错误。这种综合性的方法使Lakera成为了安全、安全性和数据隐私的一个综合解决方案。
尤其重要的是,Lakera的API的推出是在欧洲联盟即将颁布的AI法规背景下进行的。这些法规将在未来一两年内出台,其中有一项重要的法规要求LLM提供商遵守法律规定,识别潜在风险并采取适当的措施。Lakera的创始人还担任法规咨询委员会的顾问,他们积极参与制定技术规则,以帮助政策制定者更好地了解这些规定对实际开发人员的影响。
总之,Lakera的API推出为企业提供了一个全面的解决方案,以保护他们免受LLM的恶意攻击。这是一个迫切需要的安全领域,特别是在LLMs在商业应用中广泛使用的情况下。通过将攻击转化为统计结构,Lakera有望在这一领域发挥重要作用,并确保企业可以安全地利用LLM的强大功能。
Disclaimer: This website only provides website navigation services and does not assume any responsibility or guarantee for the content of the links.
1 年前
many friends have shared their concerns with me about whether AI writing will eventually replace human authors

1 年前
人工智能(AI)企业OpenAI正在开发一个代号Strawberry(草莓)的新型AI模型

1 年前
这一年,AI手机的发展更为专业、拥有更多的想象空间。

1 年前
OpenAI用一段60秒的时尚女子漫步东京街头视频惊艳全球

2 年前
OpenAI正在对GPT-4进行内容审核功能测试,旨在提高审核工作的效率

2 年前
7月7日,OpenAI在官网宣布,GPT-4 API全面开放使用

2 年前
本文将探讨ChatGPT如何革命性地解码人类语言,以及它对人类交流的影响。

2 年前
ChatGPT上线半年后,依旧在攻城略地,热潮之下,难免舆论非议