流程 文本向量稀疏 去重与不去重,都是分块以后,逐个统计出现次数。 tf-idf 不是单纯的0/1,而是根据他的一个公式设定值 稠密词嵌入word-embedding 向量数据库 检索基于文本相似度检索 能够深度挖掘语义 适合复杂的文本 基于关键词检索对原始文本进行分词去重,构建出关键词和对应文档的映射表,检索后直接发给大模型。 当用户问题简单,能直接命中合适 比如 法律条文 生成构造提示词,选择大模型(开源/闭源) FAISS Newer 记一次爬虫经历 Older LeoskyC 学习新思想,争做好青年 25 2 7 TOC 1. 流程2. 文本向量2.1. 稀疏2.2. 稠密3. 向量数据库4. 检索4.1. 基于文本相似度检索4.2. 基于关键词检索5. 生成 CATEGORYS 学习笔记 (18) 教程 (5) TAGS Hadoop Python 人工智能 前端 数据库 数据结构 机器学习