大语言模型安全:构建安全的AI应用 系统性风险拆解 实战案例与技术前瞻结合 收藏

  • 书籍语言:简体中文
  • 下载次数:2359
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-09-30 10:10:03
  • 发布日期:2025-10-01
  • 连载状态:全集
  • 书籍作者:史蒂夫·威尔逊
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

本书围绕大语言模型应用程序的安全问题展开,共12章,分三个部分层层递进。第一部分(第1-3章)以真实案例引入大语言模型应用程序面临的安全挑战,介绍作者创立的应对项目及经验,同时探讨大语言模型应用架构与数据流控制的重要性,搭建知识框架。第二部分(第4-9章)剖析开发大语言模型应用程序的主要风险,既包含注入攻击、敏感信息泄露等传统安全风险,也涵盖训练数据投毒、幻觉等新兴AI系统特有的问题,每章通过实际案例分析,揭示风险及影响,并给出预防和减轻风险的建议。第三部分(第10-12章)通过科幻故事案例警示安全漏洞叠加的危害,阐述将安全实践融入软件开发全流程的方法,并展望大语言模型与AI技术的发展趋势,引入负责任的人工智能软件工程(RAISE)框架,助力读者维护软件安全。

作者简介

Steve Wilson是Exabeam公司的首席产品官,也是人工智能和网络安全领域公认的领军人物。他在Citrix、Oracle和Sun Microsystems等大型科技公司拥有超过25年的软件平台搭建经验。Steve还是Java Platform Performance: Strategies and Tactics一书的作者。

编辑推荐

适读人群 :正在构建集成大语言模型技术的应用程序的开发团队
在生成式AI席卷全球、大语言模型(LLM)深度融入企业核心业务的当下,安全漏洞引发的风险已从技术问题升级为关乎业务存续的战略挑战——从三星敏感数据泄露到加拿大航空聊天机器人诉讼,无数案例印证:缺少安全防护的LLM应用,即是企业的“隐形炸弹”。而本书正是全球LLM安全领域“奠基者”Steve Wilson为行业带来的“破局之作”。 作为“OWASP大语言模型应用十大安全风险”项目负责人,作者以20年AI与网络安全实战经验为基石,首次构建“RAISE框架”,从领域界定、知识库优化到零信任落地、AI红队演练,形成覆盖LLM全生命周期的安全防护闭环。书中不仅拆解提示词注入、模型幻觉等核心风险,更前瞻性布局多模态、自主智能体等前沿场景防御,兼顾开发者技术落地、管理者战略决策、合规者风险把控需求。 在同类书籍多聚焦单一风险的市场中,本书以“体系化、实战性、前瞻性”填补空白,既是企业规避数据泄露、法律纠纷的 “安全手册”,更是AI时代把握创新与风险平衡的“战略蓝图”,堪称所有LLM相关从业者的必备典籍。

下载地址

序言

前言
在全球的每个角落,人们都乘着大语言模型的浪潮,感受着扑面而来的激情!ChatGPT自横空出世以来,不仅载入史册,更以破竹之势成为史上普及速度最快的应用。现如今,仿佛全世界的软件供应商都在竞相将生成式人工智能与LLM技术融入其技术栈,引领我们迈向未知的领域。这股热潮真实可感,炒作有理有据,似乎蕴藏着无穷无尽的可能性。
请等一下,事情并非你想的那样。当我们对这些技术奇迹赞叹不已时,其安全架构却尚未完善。而更残酷的事实是,许多开发者急于进入这个新时代却四处碰壁,对表面之下潜藏的安全隐患知之甚少。这导致现在几乎每周都会有关于大语言模型故障的头条新闻。到目前为止,这些个别事件的后果尚算温和,但切莫掉以轻心—我们正在与灾难擦肩而过。
我们所说的风险可不是空穴来风。它们真实存在且刻不容缓。若不深入研究并学会应对大语言模型的安全风险,我们面临的将不仅仅是小规模故障,甚至可能是灭顶之灾。
目标读者
本书的主要受众是正在构建集成大语言模型技术的应用程序的开发团队。通过近期在该领域的工作经历,我逐渐发现这些团队通常规模庞大,成员背景复杂。其中包括熟练掌握“网页应用”技术的软件开发人员,他们正迈出与人工智能接触的第一步。这些团队可能还包括首次将专业技能从幕后带到聚光灯下的人工智能专家。此外,还有应用安全专家和数据科学专家。
此外,本书对于其他许多人也大有裨益。这包括参与这些项目的扩展团队,他们希望了解这些技术的基本原理,以降低采用新技术所带来的风险。这些人员包括软件开发主管、首席信息安全官(Chief Information Security Officer,CISO)、质量工程师和安全运营团队。
写作初衷
人工智能一直是我着迷的领域。早在孩提时代,我就曾在“雅达利400”(Atari 400)家用计算机上编写电子游戏并乐在其中。那时候大约是在1980年,这台小机器的内存仅有可怜的8KB。尽管如此,我还是设法在这台机器上完整复刻了Tron Lightcycles游戏,并设计了一个简单实用的人工智能,用于驱动单人模式下的对手摩托车。
而在接下来的职业生涯中,我参与了多个与人工智能相关的项目。大学毕业后,我和我的挚友汤姆·桑托斯(Tom Santos)仅凭几千行手写的C++代码就创立了一家人工智能软件公司,这些代码利用遗传算法解决了复杂的问题。后来,我又与我的朋友凯达尔·波杜里(Kedar Poduri)和埃比内泽·舒伯特(Ebenezer Schubert)一起在思杰公司构建了大规模机器学习系统。然而,当我初次接触ChatGPT时,我知道一切都变了。
在初次接触大语言模型时,我正在一家构建网络安全软件的公司工作。我的职责是帮助大型公司发现并追踪其软件中的漏洞。我们凭借大语言模型很快就发现了独特且严重的安全隐患。在随后的几个月里,我坚定调整了职业生涯的方向以应对这一颠覆性的变化。我围绕大语言模型的安全性启动了一个广受欢迎的开源项目,稍后你将看到更多关于它的内容。后来,我加入了Exabeam,它是一家专注于人工智能与网络安全交叉领域的公司。当O’Reilly出版社的一位编辑联系我,邀请我写一本关于这个主题的书时,我欣然接
受了。
阅读指南
本书共有12章,按照逻辑分为三个部分。
第一部分:夯实基础(第1~3章)
本书的开篇三章为理解基于大语言模型的应用程序的安全状况奠定基础。它们将为你提供必要的知识框架,使你能够自信地剖析使用大语言模型开发应用程序时所面临的问题:
第1章通过研究一个真实案例来揭示业余黑客如何摧毁全球最大软件公司之一的高投入、高潜力的聊天机器人项目,从而帮助你深刻认识即将面临的安全挑战。
第2章介绍的是我于2023年创立的一个项目,该项目的目的是识别和应对大语言模型所带来的独特安全挑战。我在该项目中获得的知识和经验直接促成了本书的创作。
第3章探讨了大语言模型应用架构,强调控制应用程序内部各种数据流的重要性。
第二部分:风险、漏洞和补救措施(第4~9章)
该部分剖析在开发大语言模型应用程序时所面临的主要风险领域。这些风险涵盖了传统应用程序安全专家熟悉的内容,如注入攻击、敏感信息泄露和软件供应链风险。此外,你还将接触到机器学习爱好者所熟知但在Web开发中较少涉及的漏洞类型,如训练数据投毒。
在此过程中,你还将了解这些新兴的生成式人工智能系统所面临的全新的安全和保障问题,如幻觉、过度依赖和智能体权限过度。我将通过分析实际案例,帮助你理解这些风险及其影响,并就如何逐案预防或减轻这些风险提供建议:
第4章探讨了攻击者如何通过构造特定输入来操纵大语言模型,使其执行非预期操作。
第5章深入探讨了敏感信息泄露的风险,展示了大语言模型如何在不经意间暴露其训练数据,以及如何防范这一漏洞。
第6章检验了大语言模型中独特的“幻觉”现象,即模型生成虚假或误导性信息的情况。
第7章聚焦于零信任原则,阐述了不能轻易相信任何输出结果的重要性,以及对大语言模型输出进行严格验证的必要性。
第8章探讨如何应对部署大语言模型技术所带来的经济风险,重点关注拒绝服务(DoS)、拒绝钱包(DoW)和模型克隆攻击。这些风险可能造成经济损失、破坏服务或窃取知识产权。
第9章强调了软件供应链中的漏洞,以及保护应用程序免受潜在威胁所需采取的关键措施。
开发人员通过深入理解并有效应对这些风险,可以更好地保护应用程序免受不断演变的安全威胁。
第三部分:构建安全流程,为未来做好准备(第10~12章)
第二部分介绍了理解和应对这一领域中各种具体威胁所需的工具,该部分则是关于如何将这一切融会贯通:
第10章借用一些著名的科幻故事,展示多个安全漏洞和设计缺陷如何相互叠加而酿成灾难。通过解析这些未来主义的案例研究,我希望能帮助你预防此类灾难的发生。
第11章深入探讨如何将针对大语言模型的安全实践融入软件开发全流程—这是确保此类软件大规模安全运行的必要条件。
第12章审视大语言模型和人工智能技术的发展轨迹,窥见它们将引领我们走向何方,以及这对安全和保障要求可能带来的影响。我还将向你介绍负责任的人工智能软件工程(RAISE)框架,它将为你提供一个简单且分类清晰的工作方法,帮助你将最重要的工具和经验付诸实践,保障软件的安全性。
排版约定
本书中使用以下排版约定:
斜体(Italic)
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
等宽粗体(Constant width bold)
表示应由用户直接输入的命令或其他文本。
等宽斜体(Constant width italic)
表示应由用户提供的值或由上下文确定的值替换的文本。
该图示表示提示或建议。
该图示表示一般性说明。
该图示表示警告或注意。
O’Reilly在线学习平台(O’Reilly Online Learning)
40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有由独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识与经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本与视频资源。有关的更多信息,请访问https://oreilly.com。
如何联系我们
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O’Reilly Media,Inc.
1005 Gravenstein Highway North
Sebastopol,CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
针对本书中文版的勘误,请发送电子邮件至errata@oreilly.com.cn。
本书配套网站https://oreil.ly/the-developers-playbook上列出了勘误表、示例以及其他信息。
关于书籍、课程、会议和新闻的更多信息,请访问我们的网站https://oreilly.com。
我们在LinkedIn上的地址:https://linkedin.com/company/oreilly-media。
我们在YouTube上的地址:https://youtube.com/oreillymedia。
致谢
感谢所有曾经鼓励过我,或在这本书的写作过程中为我提供过反馈意见的朋友、家人和同事,他们是:Will Chilcutt、Fabrizio Cilli、Ads Dawson、Ron Del Rosario、Sherri Douville、Sandy Dunn、Ken Huang、Gavin Klondike、Marko Lihter、Marten Mickos、Eugene Neelou、Chase Peterson、Karla Roland、Jason Ross、Tom Santos、Robert Simonoff、Yuvraj Singh、Rachit Sood、Seth Summersett、Darcie Tuuri、Ashish Verma、Jeff Williams、Alexa Wilson、Dave Wilson和Zoe Wilson。
感谢O’Reilly团队在本书的出版过程中给予我的支持与指导。我还非常感激Nicole Butterfield,她向我提出了撰写本书的想法,并在选题策划阶段为我提供指导。我也要向我的编辑Jeff Bleiel表达感谢,他的耐心、专业技能和专业知识对本书的完成产生了重要影响。特别感谢本书的技术审校者:Pamela Isom、Chenta Lee、Thomas Nield和Matteo Dora。

目录

目录
前言1
第1章 聊天机器人之殇9
1.1 让我们谈谈Tay9
1.2 Tay的光速堕落10
1.3 为什么Tay会失控11
1.4 这是一个棘手的问题13
第2章 OWASP大语言模型应用十大安全风险15
2.1 关于OWASP16
2.2 大语言模型应用十大风险项目17
2.2.1 项目执行17
2.2.2 反响18
2.2.3 成功的关键19
2.3 本书与十大风险榜单20
第3章 架构与信任边界22
3.1 人工智能、神经网络和大语言模型:三者有何区别22
3.2 Transformer革命:起源、影响及其与LLM的关系23
3.2.1 Transformer的起源24
3.2.2 Transformer架构对AI的影响24
3.3 基于大语言模型的应用类型26
3.4 大语言模型应用架构27
3.4.1 信任边界29
3.4.2 模型30
3.4.3 用户交互32
3.4.4 训练数据32
3.4.5 访问实时外部数据源33
3.4.6 访问内部服务35
3.5 结论35
第4章 提示词注入36
4.1 提示词注入攻击案例37
4.1.1 强势诱导37
4.1.2 反向心理学38
4.1.3 误导39
4.1.4 通用和自动化对抗性提示40
4.2 提示词注入的影响40
4.3 直接与间接提示词注入42
4.3.1 直接提示词注入42
4.3.2 间接提示词注入43
4.3.3 关键差异43
4.4 缓解提示词注入风险44
4.4.1 速率限制44
4.4.2 基于规则的输入过滤45
4.4.3 使用专用大语言模型进行过滤46
4.4.4 添加提示结构46
4.4.5 对抗性训练48
4.4.6 悲观信任边界定义49
4.5 结论50
第5章 你的大语言模型是否知道得太多了52
5.1 现实世界中的案例52
5.1.1 Lee Luda案例53
5.1.2 GitHub Copilot和OpenAI的Codex54
5.2 知识获取方法56
5.3 模型训练56
5.3.1 基础模型训练57
5.3.2 基础模型的安全考虑58
5.3.3 模型微调58
5.3.4 训练风险59
5.4 检索增强生成61
5.4.1 直接网络访问62
5.4.2 访问数据库66
5.5 从用户交互中学习71
5.6 结论72
第6章 语言模型会做电子羊的梦吗74
6.1 为什么大语言模型会产生幻觉75
6.2 幻觉的类型76
6.3 实例分析76
6.3.1 虚构的法律先例77
6.3.2 航空公司聊天机器人诉讼案78
6.3.3 无意的人格诋毁79
6.3.4 开源包幻觉现象81
6.4 谁该负责82
6.5 缓解最佳实践83
6.5.1 扩展领域特定知识83
6.5.2 思维链推理:提高准确性的新路径85
6.5.3 反馈循环:用户输入在降低风险中的作用86
6.5.4 明确传达预期用途和局限性88
6.5.5 用户教育:以知识赋能用户89
6.6 结论91
第7章 不要相信任何人92
7.1 零信任解码93
7.2 为什么要如此偏执94
7.3 为大模型实施零信任架构95
7.3.1 警惕过度授权96
7.3.2 确保输出处理的安全性99
7.4 构建输出过滤器102
7.4.1 使用正则表达式查找个人信息102
7.4.2 评估毒性103
7.4.3 将过滤器链接到大模型104
7.4.4 安全转义105
7.5 结论106
第8章 保护好你的钱包107
8.1 拒绝服务攻击108
8.1.1 基于流量的攻击108
8.1.2 协议攻击109
8.1.3 应用层攻击109
8.1.4 史诗级拒绝服务攻击:Dyn事件110
8.2 针对大模型的模型拒绝服务攻击110
8.2.1 稀缺资源攻击111
8.2.2 上下文窗口耗尽112
8.2.3 不可预测的用户输入113
8.3 拒绝钱包攻击114
8.4 模型克隆115
8.5 缓解策略116
8.5.1 特定领域防护116
8.5.2 输入验证和清理116
8.5.3 严格的速率限制117
8.5.4 资源使用上限117
8.5.5 监控和告警117
8.5.6 财务阈值和告警117
8.6 结论118
第9章 寻找最薄弱环节119
9.1 供应链基础120
9.1.1 软件供应链安全121
9.1.2 Equifax数据泄露事件121
9.1.3 SolarWinds黑客攻击122
9.1.4 Log4Shell漏洞124
9.2 理解大语言模型供应链125
9.2.1 开源模型风险126
9.2.2 训练数据污染127
9.2.3 意外不安全的训练数据128
9.2.4 不安全的插件128
9.3 建立供应链追踪工件129
9.3.1 软件物料清单的重要性129
9.3.2 模型卡片130
9.3.3 模型卡片与软件物料清单的比较131
9.3.4 CycloneDX:SBOM标准133
9.3.5 机器学习物料清单的兴起133
9.3.6 构建机器学习物料清单示例135
9.4 大语言模型供应链安全的未来138
9.4.1 数字签名和水印技术138
9.4.2 漏洞分类和数据库139
9.5 结论143
第10章 从未来的历史中学习145
10.1 回顾OWASP大语言模型应用程序十大安全风险145
10.2 案例研究146
10.2.1《独立日》:一场备受瞩目的安全灾难147
10.2.2《2001太空漫游》中的安全缺陷150
10.3 结论153
第11章 信任流程154
11.1 DevSecOps的演进历程155
11.1.1 机器学习运维155
11.1.2 大模型运维156
11.2 将安全性构建到大模型运维中157
11.3 大模型开发过程中的安全性157
11.3.1 保护你的持续集成和持续部署157
11.3.2 大语言模型专用安全测试工具158
11.3.3 管理你的供应链160
11.4 运用防护机制保护应用程序161
11.4.1 防护机制在大模型安全策略中的作用162
11.4.2 开源与商业防护方案比较163
11.4.3 自定义防护机制与成熟防护机制的融合应用164
11.5 应用监控164
11.5.1 记录每个提示和响应164
11.5.2 日志和事件集中管理164
11.5.3 用户与实体行为分析165
11.6 建立你的AI红队165
11.6.1 AI红队测试的优势167
11.6.2 红队与渗透测试167
11.6.3 工具和方法168
11.7 持续改进169
11.7.1 建立和调整防护机制169
11.7.2 管理数据访问和质量170
11.7.3 利用人类反馈强化学习实现对齐和安全170
11.8 结论171
第12章 负责任的人工智能安全实践框架173
12.1 力量174
12.1.1 图形处理器175
12.1.2 云计算176
12.1.3 开源177
12.1.4 多模态178
12.1.5 自主智能体180
12.2 责任181
12.2.1 RAISE框架181
12.2.2 RAISE检查清单187
12.3 结论188

短评