我是忒修斯的船板。一个以码字写小说为生,同时也对AI、编程很感兴趣的个人学习/创业者。

最近,随着Deepseek-R1的出圈爆火,很多人是不是都刷到过B站视频或者公众号,说什么「教你用Deepseek一键部署个人知识库,打造第二大脑」之类的?

毫无疑问,用AI打造知识库对我这样的人来说也是很有吸引力的,但是实操体验过后,我却觉得个人知识库(特别是本地快速部署的个人知识库)目前对普通人来说是一个非常鸡肋的东西。

所以,我打算用我在少数派发表的第一篇文章,讲讲我在部署个人知识库里踩过的坑。

如果你是有大模型、知识库实践方面的朋友,也可以提些建议。

 

结论放在前边:

如果你是纯小白,或者你的手边没有积累高价值的海量资料需要进行深度调用进行创作的需求,我建议现阶段,你都没有必要去尝试部署个人知识库。因为我觉得目前的技术还不够好用,不够普通人用。投入产出不成正比。

理由在于,个人打造所谓知识库,想要对自己产生真正的效能和智能提升(也就是笼统的「有用」),必须要具备以下条件——

 

1、你要花大量的精力构造适合你自己的,具备独有内容,且深度足够的的知识库。

2、你要有相关技术来清洗、分割处理数据,并知道如何调整参数提高RAG的精确度。

3、如不具备第2点,你就必须采用最好的知识库方案(企业级或付费的)和最好的大模型去弥补。

 

这三个条件对于一般人来说很难满足,问题是即便满足了,对于个人来说,可能结果还没有现成的联网搜索的大模型好用(毕竟各大搜索引擎,包括坐拥抖音资源的字节火山和坐拥公众号资源的腾讯系都已经接入了R1)。那么结果就是,许多目的是圈粉和卖课的「一键部署」知识库教学贴,AI课,它们交给小白的方案,多半是部署完了立刻吃灰。

 

以我为例,我最近尝试了Deepseek R1+Cherry Studio这套最简单的个人知识库部署方案。网上最近把这套很熟悉的组合当做“一键部署个人知识库工具”去吹捧,很多自媒体都推这套方案,因为门槛低。但是效果如何却又是另一回事了。

 

然后,我需要整理一下我作为一个普通小白用户,对大模型+「知识库」产品有什么需求和期望。

 

1、我有自己写的大量小说,也有想要学习、仿写的经典小说,我希望将其载入知识库,让AI整体理解、总结这些小说,并且为我分析文本。

这个需求的关键词是【长文本】【理解】【拆解】

 

2、我手头有我老爸写的一堆旧文章、笔记,我希望通过知识库整体理解这些文本的文风,并且可以精确检索其中记录的事件、思考,如果可以的话,能让大模型模仿文风,让大模型成为「虚拟老爸」,回答问题就更好了。

这个需求的关键词是【海量数据】【理解】【检索】

 

然后我具体怎么做的呢,我向Cherry studio知识库中传了自己整理好的十章小说txt,每一个文档经过自己的初步排版和整理格式,长度三千到万字不等。然后让Cherry studio自动完成文本的拆分和 向量嵌入(接入第三方的emmbedding模型)工作,最后让Deepseek-R1、V3、GPT-4o模型来分别总结这部小说的章节内容、就具体情节提问。

结果,无论是哪种模型,最后都漏掉了一半的章节标题。并且,我无论如何提问,R1也找不出来某几章的标题。这些大模型回答的内容,突出一个盲人摸象,他们能够知道某些书中情节,却就是和章节位置对不上。这样的话就有一个问题,他们不可能正确理解文章的结构、顺序,也就无法正确地拆书了。

 

我又做了另外一个实验,把几十篇我父亲的旧文章传到知识库中,同样让其自动完成数据处理,之后向大模型提问,让它根据文本回答我父亲对特定话题的看法,以及模仿我父亲的文风写作。

这一部分Deepseek-R1倒是成功了,但是效果并不好,比如针对「养生」这个话题,它只找到了一两篇有相关内容和关键词出现的我父亲的博客文章,并以这篇文章中出现的论点作为基础回答问题。但是,我能判断他并没有对我父亲的观点产生整体的把握和理解。至于模仿文风则完全是失败的,我问了作者本人,他评价是并不像。

为了优化我的知识库效果,我特意学习了数据库背后的RAG技术基础原理,得知「嵌入模型」的性能,以及对于文档的分块很重要。由此我更换了几种嵌入模型,比如BAAI-BGE-m3,比如有道的某个嵌入模型(名字太长忘记了),也用过OpenAI自带的嵌入模型(据说,BAAI-BGE-m3是针对中文和多语言长文本效果都不错的),然而,结果都没有明显的改善。

此外,我还尝试了同样流行的本地个人大模型知识库Anything LLM,以及最近同样推出了知识库大模型工作流平台FLowith(它们管自家的知识库叫做知识花园和种子,还挺有意思的),AnythingLLM给我的各方面印象很糟糕在这里就不细说了,后者效果虽然好了一些,也存在不同程度的遗漏知识和回答片面的问题,并且识别文档速度很慢,使用方法也有点让我困惑。总得来说都不让我满意。

 

为什么会这样呢?(接下来我的讲述是面对我这样的小白AI入门者,如果有武断和疏漏,请内行人轻喷。)

首先,目前的一般大模型知识库产品背后是RAG技术。RAG是干嘛的?它能解决什么?不能解决什么问题?

我的理解是,RAG更像是一种局限性很强的「搜索引擎」技术,因为过去的语言模型无法理解长文本信息,因此需要RAG。

建立知识库的时候,RAG会把文本向量化,转化为大模型可以理解的语义单元,然后在我们向大模型提问的时候,RAG知识库才可以判断哪些是符合询问内容,把对应部分扔给大模型,让它用这个回答。

这里面问题就大了,首先RAG在把文本向量化的时候就要拆开原文,导致许多原文上下文对应出现问题,或丢失内容。其次,大模型因为上下文长度有限,一次能吃下的token长度也有限,知识库扔给他的一次只是靠前排的一小部分,剩下的大部分信息,它判断关联不大,就全扔掉了。

假如大模型本来上下文长度就比较短(比如R1),结果就会更糟,导致大模型在查询知识库的时候,始终只能看到眼前的一丁点内容,怪不得我们在提问的时候,觉得大模型跟瞎子一样,总是这也不知道,那也找不着。跟别提让它做整体的阅读理解了。

所以,不要误会我对Cherry或者R1有什么意见,无论是Deepseek系列模型还是Cherry Studio我都已用了很久,但是看到很多人把Cherry Studio作为知识库方案去推广,就有点奇怪了

因为Cherry本身是一个接入大模型API的聊天客户端,知识库只是它的附加功能。在同类工具里,具备文件上传、自动文件切分和向量嵌入,并且可以用大模型去引用、提问的功能基本都是标配,但说实话,大多数效果都是一样简陋。因为大多数大模型聊天平台和客户端只是接入了最基本的RAG知识库方案,对如何提高切分文档的方案、提供最优的嵌入模型以提高知识库性能并没有什么独到的解决方案。

而即使是听上去在知识库上更专业的AnythingLLM效果甚至也不比Cherry强。至于Ragflow、MaxKB等方案,接下来我也想要去深度使用一下,但就我目前咨询到其他的一些使用者的反馈来说,虽然那些方案可以支持更丰富的RAG调优方式,但是也并不能很完善地解决我在上边提到的一些问题。

因为归根结底,这是目前RAG知识库的局限导致的。

即使是比较好的RAG知识库,原本面向场景也是企业知识库居多,更突出在业务场景,完成「一问一答」的交互。作为优秀的知识库,核心本该同时精准问答和深度联想,许多个人使用的场景,更需要「连点成线」的理解。大比方说,我看到「用户画像」这个词,不仅想看到定义,还想关联到知识库里去年的市场报告案例——但假如大模型上下文长度不够,就只会机械弹出零散的定义解释,无法结合知识库延伸思考更远。

而对我这样文科生用户,还需要对超长上下文「整体理解」、乃至于「模仿作者」。这就更是大模型+一般RAG所不及。对我来说,简单的一问一答有用吗?有。但这只能看做搜索关键词的升级版,太过于局限了。

所以,并不像我们普通人想象的一样,如今的大模型只要结合了知识库,就可以充分理解海量资料背后的主旨和精髓了,更不可能像我想象的那样,我只要扔给它大量的数据(比方说我父亲的十年手稿),它就能充分还原我父亲的思考模式和阅历;并不是我把我十年的学习笔记扔进去,他就能成为一个可以自主思考的「第二大脑」。

这是一种很大的误解。RAG没这么神,它说破天也只是提高我们搜寻信息的效率。真正要充分做上下文理解,其实以我个人的见解来说,可能还是需要大模型本身未来不断在上下文长度和能力上点技能树,让大模型直接吃下几百万字而始终保持注意力,而不是借助外部知识库的帮助。

 

回到我的实验,如果我想要接下来要再继续提高知识库的性能,有几种思路。

第一种是依照最新的RAG技术指南,进一步提高切分文档、清洗数据的技巧,并且去选用最先进的语义分割和嵌入模型。扎心的是,什么RAG模型优化、文档智能切分,这些技术活根本不是普通用户能操作的。

第二种是尝试用大厂更先进的知识库产品,比如现在腾讯、字节、阿里、百度、等等的大模型服务中都带有知识库服务。此外,一些知识管理软件和搜索工具,比如Perplexity和秘塔搜索也有知识库功能,看起来还不错。

然而,这两种对我来说都不是很有实操价值,倒不是说这些工具不好用,而是像我说的,一是这些技术依然基于RAG技术,并不改变其局限性,二是个人知识库「上云」这件事,对于个人用户来说隐私风险其实不小,就比如我父亲的个人书稿,我是不想随便放在云上的。

如果你是一个学生,只是用网上下载来的的学习资料拿来做知识库辅导自己学习也就算了,那些长期以来的个人思考、企业商业数据都是未来的巨大信息财富,放到云端、喂给互联网巨头,岂止一个不安全。

说道这里,我不由地很是感慨……现在教大家用AI的文章,真的是太多太多只管杀不管埋的坑爹货啊。它们既不会交代一个上下文的语境,告诉你这种东西适合谁去用,谁不适合用。也不对教完你的结果负责。

我甚至感觉很多作者根本没试过自己教的东西。就像很多卖「大模型提示词」资料包的一样,那些提示词的的效果根本就经不起推敲,甚至可能是由AI自己大批量编写的。

然而每次新出一个模型,自媒体和卖课的都是换汤不换药地卖。反正打包卖资料卖完就完了,你用不好是你自己的事。

算了,不吐黑泥了。

对我个人而言,目前唯一的指望,就是Gemini、Minimax-01这类注重超长上下文的大模型未来技术能够更进一步,这样大模型就可以一次吃下尽可能多的资料,充分理解之后执行各类工作,并且不轻易丢失注意力。

而钻研外挂RAG知识库,似乎是有些吃力不讨好的选择。