前言
自大语言模型爆火之后,AI已不再是程序员和科研人员的专属工具,越来越多的业务人员开始使用AI工具和各种大语言模型框架来提高工作效率。近年来,各种AI工具层出不穷,基本上已经渗透到各行各业。AI工具虽多,却不是为每个业务人员量身定做的,很难与实际业务场景相结合,并且业务人员无法针对现有工具进行优化,使得AI工具经常在各个业务场景中只是昙花一现,无法与实际业务场景深度结合。
那么“AI+行业”这条路该如何走呢?绝对不是只依赖大语言模型与AI工具。现有的大语言模型虽然能力很强,能理解的知识面也很广,但它就像一个光杆司令,只能回答人们提出的问题,无法实际执行各项任务。与之相反,AI工具(当然也包括其他软件、程序等)虽然可以执行各项任务,但其并不是Agent,通常需要人们预先定义好参数、设置好流程,然后才能执行实际的任务。总而言之,其还需要人参与到实际任务中,并不是真正意义上的全流程自动化。那么能否将大语言模型与AI工具结合在一起,让大语言模型自己使用各种各样的外部工具来完成任务呢?(就像人一样,不仅拥有大脑,还具备双手来使用各种工具,从而完成不同业务场景的任务。)目前的答案只有一个词,那就是Agent。
Agent具备哪些能力?为什么它是目前“AI+行业”的唯一答案呢?下面列举几个关键词:感知、记忆、决策、反馈、工具调用、大语言模型、多Agent协作。掌握了这些关键词,对Agent就有了一个基本认识。
感知:能获取周围环境的信息,如用户输入的数据、上传的照片,或者一个网页链接,感知就是能够理解用户的输入。
记忆:Agent做过什么事,得到过什么样的反馈,中间经历了哪些过程,Agent都需要记住,后面在做决策的时候还会参考之前的记忆,人类能“吾日三省吾身”,它也可以!
决策:现在Agent配置了很多工具,它需要知道什么时候用什么工具,通过调用不同的工具来完成用户交给它的任务。
反馈:这一次跌倒,下一次还要再跌倒吗?既然有记忆,就要根据记忆进行反思,接下来做这件事的时候是不是该优化一下了。
工具调用:常见的方式就是使用API,让Agent具备各种各样的能力,并且可以让它根据感知和记忆的信息来填写其中的参数,从而实现自动化。
大语言模型:Agent是如何完成感知、记忆和决策的呢?这些事都需要交给“大脑”,也就是大语言模型。
多Agent协作:单兵作战是可以完成一些工作的,但是面对复杂业务,就需要多个角色通过交互和分析来一起完成相应工作。
读者不仅要从概念上理解Agent,还要动手跟着本书内容做一些实际业务场景的应用,包括使用各种Agent框架实现实际的业务需求,以及外部工具的调用、大语言模型的微调、本地知识库的搭建,从而理解构建Agent的全流程。接下来就一起动手来构建Agent吧!