RAG

LeoskyC 发布于 2026-03-10

最后更新于 2026-04-15

📒 学习笔记

流程

文本向量

稀疏

去重与不去重，都是分块以后，逐个统计出现次数。 tf-idf 不是单纯的0/1，而是根据他的一个公式设定值

稠密

词嵌入word-embedding

向量数据库

检索

基于文本相似度检索

能够深度挖掘语义 适合复杂的文本

基于关键词检索

对原始文本进行分词去重，构建出关键词和对应文档的映射表，检索后直接发给大模型。 当用户问题简单，能直接命中合适

比如法律条文

生成

构造提示词，选择大模型（开源/闭源）