检索增强生成(RAG)
检索增强生成(Retrieval-Augmented Generation,RAG)把知识库检索和语言模型生成结合在一起。这个项目会从 wiki/ 中检索整理后的知识片段,也会从 raw/ 中检索简短原文摘要,然后让模型基于这些片段生成带引用的回答。
它解决什么问题#
关键实现选择:
- 用 Git 保存长期可维护的知识资产。
- 从 Markdown 内容构建向量索引。
- 让回答带上可点击引用,避免脱离来源。
在本知识库中的角色#
本仓库把 raw/ 视为不可随意改写的原始资料层,把 wiki/ 视为便于阅读和互链的整理层。RAG 系统回答问题时,应优先使用 wiki/ 页面中的综合解释;当用户需要原始上下文时,再引用 raw/ 片段。
回答界面必须把引用渲染为链接,让读者能从生成结果跳回对应文章页面。
取舍与风险#
RAG 能提升回答的可追溯性,但不能替代资料治理。切分质量差、索引过期、来源记录模糊,仍然会导致回答质量下降。这个项目通过保留 Git 历史、展示 AI 生成提示、让每个 wiki 页面链接回引用来源来降低这些风险。
相关:项目种子摘要。
AI 整理页
基于 1 篇可追溯原文整理,可能有误。来源、版本与反馈入口收在下方。