程序员应该熟悉的概念(9)向量相似度(vector similarity)

在之前的文章 嵌入和语义检索 中,我们了解了把文本变成向量的方法,由于这些向量相当于将文本做了分类:语义相近的距离越近,所以这些向量就可以很方便的应用于语义检索场景了。 比较向量相似度(vector similarity)的常见算法主要分为两大类: 1️⃣ 基于“角度/方向”的度量 2️⃣ 基于“距离/差异”的度量 下面我们系统的整理一下。 ...

十月 2, 2025 · 2 分钟 · 火云

程序员应该熟悉的概念(8)嵌入和语义检索

语义检索是指系统能够理解用户查询的深层含义(语义),而不仅仅是匹配字面关键词。它通过分析上下文、同义词、相关概念等,查找与查询意图最相关的信息,即使文档中没有完全相同的词语。 与关键词检索的区别: 关键词检索:基于字面匹配,查找包含用户输入的特定词语的文档。它不理解词语的含义,因此可能遗漏意思相关但用词不同的内容,或返回用词相同但意思不符的结果。 语义检索:基于意义匹配,理解查询和文档的“意思”。它能找到表达方式不同但含义相近的内容,返回更符合用户真实意图的结果。 简单来说:关键词检索是“找词”,语义检索是“懂意”。 例如:如果用关键词检索“苹果”,那么可能找到我们吃的苹果以及苹果公司的相关信息;而语义检索会考虑检索内容的上下文,它能断定这个苹果是“苹果公司”,所以只会检索“苹果公司”的相关内容出来。 ...

十月 1, 2025 · 3 分钟 · 火云