本博客原文来自俗人茶室微信公众号。 聊聊文科生也能看懂的 AI 与 RAG
在如何用技术的力量让技术文档发挥更大的价值中提到过 RAG 技术,也就是当我们使用 AI(LLM大语言模型)检索答案时外接一个特有的知识库,让 AI 基于知识库内容给出更专业和精准的回答。今天的茶室闲谈的关键词就是 数据、知识、RAG。
由于人类的知识经过处理后也可以被 AI 看成为数据,在本次讨论中我们统一将知识和数据称之为数据。
AI 现在这么火,你们真的有觉得很有用么?
Eric
实话实说,一开始不管问 AI 什么问题都会给我一个看起来像样的回答,感觉蛮爽的。只是时间久了发现,真正有用的内容还得靠人工,AI 的回答总是水水的。
Michael
我也有同感,有时候 AI 的回答我还要额外花时间校验一遍,还不如自己上手了。
大家可能发现了一个大问题:AI 总是一本正经地胡说八道。
导致AI模型产生幻觉有若干因素,主要原因源于训练的数据。目前的大语言模型就好比一个学生,接受了“义务教育”程度的数据训练,能够处理简单的“加减乘除”,可是当需要通过逻辑推理等更高级的智力劳动去完成实际工作时,往往只能“不懂装懂”了。
Irene
能不能用更加专业的领域数据来训练 AI 提高回答的质量呢?
不能,高质量数据掌握在专家手中,并不会轻易公开。
所谓“知识就是力量”,当我们通过学习和实践积累了区别于他人的专业知识,且足以影响和改变特定的专业领域时,个人价值和影响力就会在社会竞争中凸显出来。这些专家级的知识一是很难用结构化的形式呈现在数据之中,二是这些知识的价值极高不可能免费公开。
Michael
我们有什么办法可以将专业知识处理成某种形式让 AI 可以高效地学习,同时还能保证这些知识是为 私人所有且安全可控呢?
设想很合理,还是可能实现的!咱们先从 RAG 开始讲起。
RAG 即检索增强生成,这种方式在我们与 AI 互动之间增加了一个知识库,让 AI 在生成响应之前引用这个知识库。搭载了知识库的大型语言模型(LLM)就好比一个学生经过工作后成为了专家,可以在更专业的领域解决问题,我们可以在知识库里维护数据并保障数据安全。
学生(LLM) vs 专家(RAG:LLM+知 识库)
Eric
那么知识究竟是怎么存储在知识库里又是如何作用于 AI 的呢?
有两种数据库可以处理并存储知识:向量数据库和图数据库。
假设你是一个果农,对种植苹果颇有研究。现在可以把某一个新品种苹果的知识转化成数据,AI 学习后成就能成为你的智能种植助手。
我们可以尝试以下两种方式处理知识:一是向量化,二是构建知识图谱。
- 向量数据库:抽象出苹果的知识 → 切分成等量的文本模块 → 将这些内容转化成向量存储在向量数据库。AI 在向量数据库搜索与问题最相似的向量和上下文,最后把这些知识文本返回给用户。
- 图数据库:首先需要提炼“苹果”有关联的内容以及相关概念之间的关系 → 构建知识图谱 ->存储到图数据库。AI 通过图数据库检索知识图谱并生成回答。
Eric
如果把向量数据库想象成一个宇宙,其中每颗行星都是一条数据,相似的行星更近,相似度较低的行星更远。这种方式 通过比对距离获得答案。
Irene
相比之下,图数据库的组织形式像一些网状结构,清晰地标注了实体与实体之间的关系,直观到人和AI都能看得懂。这种方式 通过关系获得答案。
这两种方式的特点不同,适用的场景不同。在实际工作中通常会将两者结合起来使用。
在对技术有了更进一步的了解之后,俗人茶室 将会尝试使用这些技术,去探索更高效的个人知识管理体系,更高质量的技术文档写作方式,以及更省力的内容传播方式。因为有了 AI,这个时代会有很大的不同。