当前位置：首页 > news >正文

百炼多模态全家桶：图像、语音、视频一站式搞定

news 2026/5/27 8:09:52

前面几篇我们分别用 OpenAI 和千帆实现了图像生成、语音交互。但它们分散在不同的平台和依赖里接入方式各异。今天我们回到阿里云百炼平台用Spring AI Alibaba这一个依赖把图像、语音、视频三种多模态能力一次性全部拿下。如果你在做一款“全能 AI 助手”需要它既能根据文字生成图片、又能把文字变成语音播报、还能理解图片内容甚至生成视频那么今天这篇文章就是为你量身打造的。我们会用一套统一的配置和代码风格在百炼平台上完成文生图、语音合成TTS、语音识别STT和文生视频。一套 API多模态全通。一、痛点场景多模态能力碎片化先看几个典型困境场景一你希望用户上传一张照片AI 能识别图中的物体然后用语音读出结果。这需要图像理解语音合成。如果用不同厂商的服务光 API Key 就要管好几把。场景二运营人员想自动生成宣传视频输入一段文案先让 AI 生成分镜图片再把文案转成配音最后合成视频。跨平台调用、格式对齐、异步任务管理……想想就头大。场景三开发环境里同时引入 OpenAI、千帆、百炼等多个依赖版本冲突、Bean 注入歧义让你苦不堪言。解决方案全部交给阿里云百炼平台用 Spring AI Alibaba 的dashscopestarter 统一调度。它背后是通义千问系列模型覆盖文本、图像、语音、视频全模态而且通过 Spring AI 的统一抽象暴露代码风格高度一致。二、核心概念快览2.1 DashScope 多模态模型全景百炼平台将多种模态能力封装为模型通过统一 API 调用能力模型名称示例输入输出文本生成qwen-plus, qwen-max文本文本图像理解qwen-vl-max文本图片文本文生图wanx-v1 (通义万相)文本描述图片 URL语音合成TTScosyvoice-v1, sambert-xxx文本音频数据语音识别STTparaformer-xxx音频文件文本文生视频wanx2.0-t2i-turbo文本描述视频 URL异步任务2.2 Spring AI Alibaba 的自动配置引入spring-ai-alibaba-starter-dashscope后框架会根据application.yml中的spring.ai.dashscope配置自动创建针对各模态的 Model Bean。比如DashScopeChatModel处理文本对话和图像理解多模态DashScopeImageModel处理文生图DashScopeSpeechSynthesisModel处理语音合成DashScopeAudioTranscriptionModel处理语音识别DashScopeVideoModel处理文生视频你不需要手动 new 这些对象直接注入即可使用。而且它们在底层共享同一套 API Key 和网络配置避免了散乱的认证管理。2.3 调用方式一致性图像、语音、视频的调用模式高度相似// 文生图ImageResponseimgRespimageModel.call(newImagePrompt(text,options));// 语音合成SpeechResponsespeechRespspeechModel.call(newSpeechPrompt(text,options));// 语音识别StringtranscripttranscriptionModel.call(audioResource,options);// 视频生成可能是异步VideoResponsevideoRespvideoModel.call(newVideoPrompt(text,options));虽然不同的模态具体接口略有差异但整体思路遵循“输入对象选项 → 调用 → 输出对象”的模式。三、环境准备3.1 获取百炼 API Key访问百炼控制台开通 DashScope 服务并创建 API Key。新用户通常有免费额度用于学习绰绰有余。设置环境变量exportDASHSCOPE_API_KEYsk-你的密钥3.2 Maven 依赖只需要一个 starterdependencygroupIdcom.alibaba.cloud.ai/groupIdartifactIdspring-ai-alibaba-starter-dashscope/artifactIdversion1.1.2.0/version!-- 请根据当前最新稳定版调整 --/dependency同时需要在dependencyManagement中引入 Spring AI BOM版本 1.1.6保证底层 API 一致。3.3 application.yml 配置spring:ai:dashscope:api-key:${DASHSCOPE_API_KEY}# 图像生成默认选项image:options:model:wanx-v1size:1024x1024n:1# 语音合成默认选项speech:synthesis:options:model:cosyvoice-v1voice:longxiaochun# 音色可在百炼控制台试听format:mp3# 语音识别默认选项speech:transcription:options:model:paraformer-8k# 采样率 8kHz 版本# 视频生成默认选项video:options:model:wanx2.0-t2i-turbo# 文生视频模型四、代码实战4.1 创建多模态服务新建BailianMultiModalService.java注入各模态模型packagecom.example.springaihelloworld.service;importcom.alibaba.cloud.ai.dashscope.audio.DashScopeSpeechSynthesisModel;importcom.alibaba.cloud.ai.dashscope.audio.DashScopeAudioTranscriptionModel;importcom.alibaba.cloud.ai.dashscope.image.DashScopeImageModel;importcom.alibaba.cloud.ai.dashscope.video.DashScopeVideoModel;importorg.springframework.ai.image.ImagePrompt;importorg.springframework.ai.image.ImageResponse;importorg.springframework.ai.audio.speech.SpeechPrompt;importorg.springframework.ai.audio.speech.SpeechResponse;importorg.springframework.ai.video.VideoPrompt;importorg.springframework.ai.video.VideoResponse;importorg.springframework.core.io.InputStreamResource;importorg.springframework.core.io.Resource;importorg.springframework.stereotype.Service;importorg.springframework.web.multipart.MultipartFile;importjava.io.IOException;ServicepublicclassBailianMultiModalService{privatefinalDashScopeImageModelimageModel;privatefinalDashScopeSpeechSynthesisModelsynthesisModel;privatefinalDashScopeAudioTranscriptionModeltranscriptionModel;privatefinalDashScopeVideoModelvideoModel;publicBailianMultiModalService(DashScopeImageModelimageModel,DashScopeSpeechSynthesisModelsynthesisModel,DashScopeAudioTranscriptionModeltranscriptionModel,DashScopeVideoModelvideoModel){this.imageModelimageModel;this.synthesisModelsynthesisModel;this.transcriptionModeltranscriptionModel;this.videoModelvideoModel;}/** * 文生图输入文本描述返回图片 URL */publicStringgenerateImage(Stringprompt){ImageResponseresponseimageModel.call(newImagePrompt(prompt));returnresponse.getResult().getOutput().getUrl();}/** * 语音合成TTS文字转语音返回音频字节数组 */publicbyte[]synthesizeSpeech(Stringtext){SpeechResponseresponsesynthesisModel.call(newSpeechPrompt(text));returnresponse.getResult().getOutput();// byte[]}/** * 语音识别STT上传音频文件返回转写文本 */publicStringtranscribeAudio(MultipartFileaudioFile)throwsIOException{ResourceaudioResourcenewInputStreamResource(audioFile.getInputStream());returntranscriptionModel.call(audioResource);}/** * 文生视频输入文本描述返回视频 URL可能是异步任务 * 注意视频生成可能需要一定时间实际返回可能为异步任务 ID */publicStringgenerateVideo(Stringprompt){VideoResponseresponsevideoModel.call(newVideoPrompt(prompt));// 视具体 API 返回而定这里假设 getUrl() 返回最终视频地址returnresponse.getResult().getOutput().getUrl();}}注意实际文生视频可能为异步任务百炼会先返回任务 ID需要通过任务 ID 查询结果。为了教学方便此处假设同步返回视频 URL。你的生产代码可能需要实现轮询逻辑。本章结尾会给出异步处理的提示。4.2 创建多模态 Controller新建BailianMultiModalController.javapackagecom.example.springaihelloworld.controller;importcom.example.springaihelloworld.service.BailianMultiModalService;importorg.springframework.http.*;importorg.springframework.web.bind.annotation.*;importorg.springframework.web.multipart.MultipartFile;importjava.io.IOException;RestControllerpublicclassBailianMultiModalController{privatefinalBailianMultiModalServiceservice;publicBailianMultiModalController(BailianMultiModalServiceservice){this.serviceservice;}// 文生图 GetMapping(/bailian/image)publicStringcreateImage(RequestParamStringprompt){Stringurlservice.generateImage(prompt);return图片生成成功地址url;}// 语音合成 GetMapping(/bailian/tts)publicResponseEntitybyte[]textToSpeech(RequestParamStringtext){byte[]audioservice.synthesizeSpeech(text);HttpHeadersheadersnewHttpHeaders();headers.setContentType(MediaType.parseMediaType(audio/mpeg));headers.setContentDisposition(ContentDisposition.inline().filename(speech.mp3).build());headers.setContentLength(audio.length);returnResponseEntity.ok().headers(headers).body(audio);}// 语音识别 PostMapping(/bailian/asr)publicStringspeechToText(RequestParam(file)MultipartFilefile)throwsIOException{returnservice.transcribeAudio(file);}// 文生视频 GetMapping(/bailian/video)publicStringcreateVideo(RequestParamStringprompt){StringvideoUrlservice.generateVideo(prompt);return视频生成成功地址videoUrl;}}4.3 前端测试页面可选可以在src/main/resources/static下创建一个bailian-demo.html集成图片展示、音频播放、文件上传和视频播放。这里就不展开了你可以参照前几篇文章自己实现。五、运行与演示5.1 启动应用确保DASHSCOPE_API_KEY环境变量已配置启动 Spring Boot。5.2 测试文生图http://localhost:8080/bailian/image?prompt一只戴着圣诞帽的金毛犬在雪地里奔跑返回图片 URL在浏览器打开即可看到生成的金毛犬图片。5.3 测试语音合成http://localhost:8080/bailian/tts?text你好欢迎使用百炼多模态平台浏览器会直接播放 MP3 音频听到自然的人声播报。5.4 测试语音识别准备一个中文音频文件如录制“今天天气真好”用 curl 调用curl-XPOST-Ffiletest.m4ahttp://localhost:8080/bailian/asr返回转写结果“今天天气真好”。5.5 测试文生视频http://localhost:8080/bailian/video?prompt一只小猫在草地上追逐蝴蝶返回视频地址。如果是异步任务可能会返回一个类似task_id的标识需要再调用查询接口。实际开发中应实现任务提交和轮询机制。六、常见问题与避坑提示问题一文生视频是异步的接口返回的不是最终视频百炼的文生视频模型通常采用异步任务方式。调用后立即返回一个任务 ID你需要通过任务 ID 轮询结果。Spring AI Alibaba 的DashScopeVideoModel可能封装了同步等待或返回VideoResponse时已包含结果这取决于使用的版本。在实际生产代码中建议参考百炼官方文档实现异步处理逻辑。问题二语音合成模型名称变化百炼平台不断更新模型库cosyvoice-v1可能会被新版替代。如果调用时提示模型不存在请到百炼控制台查看最新的模型列表并更新application.yml。问题三图像生成和语音合成有频率限制免费额度下每分钟调用次数有限。如果频繁调用返回 429 错误请降低请求频率或升级账户。问题四依赖冲突如果项目中同时引入了spring-ai-starter-model-openai和spring-ai-alibaba-starter-dashscope由于它们都提供了ChatModel等接口的实现可能导致 Bean 注入歧义。建议在学习本篇文章时创建独立项目或者在注入时使用Qualifier指定具体 Bean 名称。问题五音频文件格式语音识别支持多种格式mp3, wav, m4a, flac 等。但采样率需要注意如果你用的是paraformer-8k音频采样率应为 8kHz。更通用的paraformer-16k对应 16kHz 采样率请根据实际录音设备调整。七、小结与下一步预告本篇回顾使用 Spring AI Alibaba DashScope starter一个依赖搞定图像、语音、视频四种多模态能力。学习了DashScopeImageModel、DashScopeSpeechSynthesisModel、DashScopeAudioTranscriptionModel、DashScopeVideoModel的基本用法。在同一个项目中用统一的配置和调用风格完成了文生图、TTS、STT、文生视频的实战。下一步预告多模态能力已经齐备但我们的 AI 应用还缺少一种“超能力”——调用外部工具。下一篇我们将进入 Tool Calling 的世界让 AI 学会调用你的业务方法比如查询数据库、发送邮件、调用第三方 API真正从“参谋”变成“执行者”。下一篇《Tool Calling让 AI 动手调用你的业务方法》见。本系列博客基于 Spring AI 1.1.6 和 Spring AI Alibaba 1.1.2.0 版本编写。百炼平台模型列表和服务状态可能会更新请以阿里云官方文档为准。实际生产环境中请处理好异步任务、费用控制和异常重试。

查看全文

http://www.rkmt.cn/news/1400447.html