当前位置：首页 > news >正文

Spring AI 从入门到精通-Embedding

news 2026/6/8 0:50:24

7. Embedding：AI 的"理解"从数字开始

7.1 一个比喻：气味地图

想象你走进一家咖啡店，你闻到咖啡的香气、烤面包的焦味、还有一点点奶香。你的大脑不需要看到"咖啡豆"三个字，就能判断这是咖啡店。

Embedding（嵌入）就是这个过程的数字版。它把一段文字转换成一串浮点数（向量），这串数字"代表"了文字的含义。语义相近的文字，向量在空间中距离也近。

7.2 EmbeddingModel 接口

Spring AI 的EmbeddingModel接口极其简洁：

publicinterfaceEmbeddingModelextendsModel<EmbeddingRequest,EmbeddingResponse>{// 嵌入一段文本float[]embed(Stringtext);// 嵌入一个 Document 对象float[]embed(Documentdocument);// 批量嵌入List<float[]>embed(List<String>texts);// 嵌入并返回完整响应（含元数据）EmbeddingResponseembedForResponse(List<String>texts);// 获取向量维度intdimensions();}

7.3 第一个 Embedding 示例

@AutowiredprivateEmbeddingModelembeddingModel;publicvoiddemo(){// 嵌入一段文本float[]vector=embeddingModel.embed("Spring AI 是一个强大的 AI 框架");System.out.println("向量维度: "+vector.length);// 比如 1536（OpenAI）或 768（Ollama）System.out.println("前 5 个值: "+Arrays.toString(Arrays.copyOf(vector,5)));// 输出示例: [0.0123, -0.0456, 0.0789, 0.0234, -0.0567]// 批量嵌入List<float[]>vectors=embeddingModel.embed(List.of("Java 编程语言","Python 编程语言","今天天气很好"));// 计算余弦相似度doublesimilarity=cosineSimilarity(vectors.get(0),vectors.get(1));System.out.println("Java 和 Python 的相似度: "+similarity);// 应该很高，比如 0.85doublesimilarity2=cosineSimilarity(vectors.get(0),vectors.get(2));System.out.println("Java 和天气的相似度: "+similarity2);// 应该很低，比如 0.12}// 余弦相似度计算：衡量两个向量在方向上的相似程度// 值越接近 1 表示语义越相似，越接近 0 表示越不相关privatedoublecosineSimilarity(float[]a,float[]b){doubledot=0,normA=0,normB=0;for(inti=0;i<a.length;i++){dot+=a[i]*b[i];normA+=a[i]*a[i];normB+=b[i]*b[i];}returndot/(Math.sqrt(normA)*Math.sqrt(normB));}

7.4 支持的 Embedding 模型

提供商	依赖	维度	特点
OpenAI	`spring-ai-starter-model-openai`	1536/3072	最常用
Azure OpenAI	`spring-ai-starter-model-azure-openai`	1536	企业合规
Ollama	`spring-ai-starter-model-ollama`	768/4096	免费本地
Transformers (ONNX)	`spring-ai-starter-model-transformers`	384/768	纯本地，无网络
Vertex AI	`spring-ai-starter-model-vertex-ai`	768	Google 生态
Bedrock	`spring-ai-starter-model-bedrock`	1024/1536	AWS 生态
Mistral AI	`spring-ai-starter-model-mistral-ai`	1024	欧洲厂商

7.5 配置 Embedding 模型

# OpenAI Embedding spring.ai.openai.api-key=${OPENAI_API_KEY} spring.ai.openai.embedding.options.model=text-embedding-3-small # Ollama Embedding（免费本地） spring.ai.ollama.embedding.options.model=nomic-embed-text

7.6 Document 对象：带元数据的文本

在 RAG 场景中，我们不只嵌入"纯文本"，而是嵌入带元数据的Document对象：

Documentdoc=newDocument("Spring AI 是 Spring 生态的 AI 框架，支持多种模型和向量数据库。",Map.of("source","官方文档","page",1,"author","Spring 团队","category","AI"));float[]embedding=embeddingModel.embed(doc);// 元数据可用于后续过滤

7.7 一个完整的相似度搜索 Demo

@ServicepublicclassSemanticSearchService{privatefinalEmbeddingModelembeddingModel;publicSemanticSearchService(EmbeddingModelembeddingModel){this.embeddingModel=embeddingModel;}/** * 在候选文档中搜索与查询最相似的文档 */publicList<ScoredDocument>search(Stringquery,List<Document>candidates,inttopK){// 1. 嵌入查询float[]queryEmbedding=embeddingModel.embed(query);// 2. 嵌入所有候选文档（批量）List<float[]>candidateEmbeddings=embeddingModel.embed(candidates.stream().map(Document::getText).toList());// 3. 计算相似度并排序returnIntStream.range(0,candidates.size()).mapToObj(i->newScoredDocument(candidates.get(i),cosineSimilarity(queryEmbedding,candidateEmbeddings.get(i)))).sorted((a,b)->Double.compare(b.score,a.score)).limit(topK).toList();}}recordScoredDocument(Documentdocument,doublescore){}