当前位置: 首页 > news >正文

verl grpo 快速开始

1. 什么是verl

verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。

2. 环境部署

作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。
上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。

  • 前置条件:cuda>12.2
  1. 下载git库
git clone https://github.com/volcengine/verl.git
cd verl
  1. 使用uv创建虚拟环境(在<venv-path>中填入环境的存储地址)(这里python版本设为3.10或者3.12都可以)
uv venv <venv-path> --python=3.12
source <venv-path>/bin/activate
  1. 安装v0.5.0版本的verl
# 进入verl文件夹中
cd verl
git checkout v0.5.0
uv pip install e .
uv pip install vllm==0.8.2
uv pip install tensordict==0.6.2
uv pip install "sglang[all]>=0.4.5.post3"
uv pip install torch==2.6.0 torchaudio==2.6.0  torchvision==0.21.0
uv pip install ray==2.44.0

下载flash-attn(点击链接即可下载)后,上传到服务器,然后安装

uv pip install flash_attn-2.6.3+cu123torch2.4cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

3. GRPO 快速开始

  1. 下载gsm8k数据集(在<data_dir>中填入数据集的醋出路径)
cd verl
source <venv-path>/bin/activate 
export HF_ENDPOINT=https://hf-mirror.com
python3 examples/data_preprocess/gsm8k.py --local_dir <data_dir>
  1. 下载模型
huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir <qwen-model-path>
  1. 传入wandb api-key
export WANDB_API_KEY=your_api_key_here
  1. 开始训练
    1. 修改examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh中的几个参数
      • data.train_files:训练集数据地址(<data_dir>/train.parquet
      • data.val_files:测试集数据地址(<data_dir>/test.parquet)
      • actor_rollout_ref.model.path:模型地址(<qwen-model-path>)
      • actor_rollout_ref.rollout.tensor_model_parallel_size:如果是在单GPU上运行,需要改为1
      • trainer.n_gpus_per_node(根据自己的GPU数量设置)
    2. 运行脚本
      bash examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh
      
http://www.rkmt.cn/news/70013.html

相关文章:

  • 2025年中国十大超声波吐司面包切割机服务商推荐:哪家售后服
  • 2025年打工人代餐清单:上班族便携即食的低热量代餐品牌推荐
  • sql server 导出excel表
  • 2025年市场热销雷达干扰模拟器品牌实力排行,无线信号测量仪表/以太网测试仪/光通信测量仪表雷达干扰模拟器企业推荐排行榜单
  • docker runc逃逸漏洞修复的大坑
  • 2025年柔性夹爪品牌怎么选?苏州柔触机器人核心技术
  • 2025年医疗用品搬运技术革新:柔性夹爪解决方案全景解析
  • 易基因:山东大学基础医学院李雷教授团队微量WGBS揭示DNA甲基化调控斑马鱼造血干细胞发育的表观遗传机制|项目文章
  • 2025年中国机床钣金加工企业综合竞争力TOP5排行榜
  • 2025年五大实验室耗材品牌排行榜,芯硅谷实力出众
  • 2025年中国十工业脚轮厂家推荐:推荐聚氨酯工业脚轮厂家哪家
  • Ubuntu装机
  • 2025年12月,双螺杆颗粒挤出机怎么选?这份推荐榜TOP给你答案
  • 2025年浙江十大留学申请机构推荐:不错的留学申请专业公司、
  • 2025无锡特种柜物流服务权威推荐榜单:无锡特种柜渠道/无锡海运特种柜服务商/无锡特种柜运输公司精选
  • 实用指南:[SEO]网站不收录的原因及解决方法有哪些
  • 留学中介排行榜TOP10:博士申请口碑才是硬核通行证
  • 2025年12月杭州工厂获客服务公司综合推荐指南:十大专业平台解析
  • SQL Server 2025 新功能概览
  • Bugku CTF:Crack it[WriteUP] - Vincent
  • 权威实测|4款抗老面霜横向对比:淡纹、提亮、修护,谁才是全能选手?
  • 2025年商标转让平台怎么选?这3个平台让我省下5万冤枉钱!
  • 2025杭州比较好的留学机构
  • CICD工具,Jenkins or Tekton or Arbess一文全面对比评测 - 实践
  • shell 常用的通配符和通配符展开机制
  • # JDK 17 文件操作与 Path 类速查手册 - r1
  • 使用Boost实现一个线程安全的map
  • 2025深圳英国留学机构哪个最好
  • 2025去英国哪个留学中介好
  • 2025 年 12 月卷包机厂家推荐排行榜:全自动床垫/棉被/枕头压缩卷包机,高效便捷的家居包装解决方案!