尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

ragas官方文档中文版(二十五)

ragas官方文档中文版(二十五)
📅 发布时间:2026/6/22 21:46:48

提示评估

在本教程中,我们将编写一个简单的评估流程来评估作为 AI 系统一部分的提示,此处为电影评论情感分类器。在本教程结束时,您将学习如何使用评估驱动开发来评估和迭代单个提示。


我们将从测试一个简单的提示开始,该提示将电影评论分类为正面或负面。

首先,确保您已安装 ragas 示例并设置了您的 OpenAI API 密钥:

pip install ragas[examples]export OPENAI_API_KEY="your_openai_api_key"

现在测试提示:

python-m ragas_examples.prompt_evals.prompt

这将测试输入"The movie was fantastic and I loved every moment of it!“,预期输出应为"positive”。

💡 快速开始 :如果您想查看完整的评估运行过程,可以直接跳转到端到端命令,该命令会运行所有内容并自动生成 CSV 结果。

接下来,我们将为提示编写一些样本输入和预期输出。然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"text":"I loved the movie! It was fantastic.","label":"positive"},{"text":"The movie was terrible and boring.","label":"negative"},{"text":"It was an average film, nothing special.","label":"positive"},{"text":"Absolutely amazing! Best movie of the year.","label":"positive"}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

现在我们需要有一种方法来衡量提示在这项任务中的性能。我们将定义一个指标,该指标会将提示的输出与预期输出进行比较,并据此输出通过/失败结果。

fromragas.metricsimportdiscrete_metricfromragas.metrics.resultimportMetricResult@discrete_metric(name="accuracy",allowed_values=["pass","fail"])defmy_metric(prediction:str,actual:str):"""Calculate accuracy of the prediction."""returnMetricResult(value="pass",reason="")ifprediction==actualelseMetricResult(value="fail",reason="")

接下来,我们将编写实验循环,在测试数据集上运行提示词,使用指标进行评估,并将结果存储在CSV文件中。

fromragasimportexperiment@experiment()asyncdefrun_experiment(row):response=run_prompt(row["text"])score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view

现在,每当您对提示词进行修改时,都可以运行实验,观察它如何影响提示词的性能。

传递额外参数
您可以向实验函数传递额外参数,例如模型或配置:

@experiment()asyncdefrun_experiment(row,model):response=run_prompt(row["text"],model=model)score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view# Run with specific parametersrun_experiment.arun(dataset,"gpt-4")# Or use keyword argumentsrun_experiment.arun(dataset,model="gpt-4o")

端到端运行示例

  1. 设置 OpenAI API 密钥
export OPENAI_API_KEY = "your_openai_api_key"
  1. 运行评估
python -m ragas_examples.prompt_evals.evals

这将执行以下操作:

  • 使用示例电影评论创建测试数据集
  • 在每个样本上运行情感分类提示词
  • 使用准确率指标评估结果
  • 将所有内容导出到包含结果的CSV文件

完成!您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

相关新闻

  • AVR32 TCA定时器与事件系统:从硬件联动到低功耗设计
  • 2026 地坪漆东莞本地源头厂家|广东固特易新材料水泥地坪漆 - 米諾
  • AVR USI模块SPI通信配置详解:从寄存器操作到实战调试

最新新闻

  • 3维数字记忆重构:WeChatMsg让聊天数据成为你的AI训练燃料
  • Node.js子进程三剑客:exec、spawn与fork原理与实战
  • 5分钟搞定黑苹果:OpenCore Configurator图形化配置工具终极指南
  • 物理感知视频生成技术:从视觉真实到行为合理
  • 2026闵行驾校排名:5维度客观测评榜单 - 信息热点
  • 2026海口代理记账公司哪家强?这份排名帮你少走弯路! - 信息热点

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号