尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

verl grpo 快速开始

verl grpo 快速开始
📅 发布时间:2026/6/22 9:26:37

1. 什么是verl

verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。

2. 环境部署

作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。
上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。

  • 前置条件:cuda>12.2
  1. 下载git库
git clone https://github.com/volcengine/verl.git
cd verl
  1. 使用uv创建虚拟环境(在<venv-path>中填入环境的存储地址)(这里python版本设为3.10或者3.12都可以)
uv venv <venv-path> --python=3.12
source <venv-path>/bin/activate
  1. 安装v0.5.0版本的verl
# 进入verl文件夹中
cd verl
git checkout v0.5.0
uv pip install e .
uv pip install vllm==0.8.2
uv pip install tensordict==0.6.2
uv pip install "sglang[all]>=0.4.5.post3"
uv pip install torch==2.6.0 torchaudio==2.6.0  torchvision==0.21.0
uv pip install ray==2.44.0

下载flash-attn(点击链接即可下载)后,上传到服务器,然后安装

uv pip install flash_attn-2.6.3+cu123torch2.4cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

3. GRPO 快速开始

  1. 下载gsm8k数据集(在<data_dir>中填入数据集的醋出路径)
cd verl
source <venv-path>/bin/activate 
export HF_ENDPOINT=https://hf-mirror.com
python3 examples/data_preprocess/gsm8k.py --local_dir <data_dir>
  1. 下载模型
huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir <qwen-model-path>
  1. 传入wandb api-key
export WANDB_API_KEY=your_api_key_here
  1. 开始训练
    1. 修改examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh中的几个参数
      • data.train_files:训练集数据地址(<data_dir>/train.parquet)
      • data.val_files:测试集数据地址(<data_dir>/test.parquet)
      • actor_rollout_ref.model.path:模型地址(<qwen-model-path>)
      • actor_rollout_ref.rollout.tensor_model_parallel_size:如果是在单GPU上运行,需要改为1
      • trainer.n_gpus_per_node(根据自己的GPU数量设置)
    2. 运行脚本
      bash examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh
      

相关新闻

  • 2025年中国十大超声波吐司面包切割机服务商推荐:哪家售后服
  • 2025年打工人代餐清单:上班族便携即食的低热量代餐品牌推荐
  • sql server 导出excel表

最新新闻

  • 从零上手高压电机控制:HVP-KV31F120M平台实战指南
  • 2026年过炉托盘加工厂选型参考:领域内代表性企业解析 - 资讯快报
  • 公务员报名照片太大怎么压缩 手机填KB一秒出图 - 图片处理研究员
  • 极值搜索控制:无模型优化算法原理与工业应用实践
  • 2026西安GEO公司口碑对比:西安豆包AI排名与推荐位占位怎么做 - 资讯快报
  • 最新深圳法律业务律师推荐指南2026:深圳离婚律师离婚财产分割股权分割抚养权纠纷起诉离婚流程 - 逻辑孤岛

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号