返回搜索GitHub

AI Agent / 视频 / 音频 AI / Local AI

OpenRLHF

基于 Ray + vLLM 分布式架构的高性能 RLHF 框架,支持 PPO/GRPO/REINFORCE++ 等算法

质量分82
0 Stars
unknown
hard

中文速读

OpenRLHF 是首个结合 Ray + vLLM 分布式架构的高性能开源 RLHF 框架。采用统一的 Agent-based 设计范式,支持 PPO、REINFORCE++、GRPO 等多种强化学习算法。采用混合引擎可在小规模集群上实现最高利用率,支持异步训练和局部 rollout。提供完整的中文文档和 Bilibili 教程视频,对中国开发者友好。

快速试用

暂未发现稳定的 Demo 或视频入口。

适合

  • 需要进行 RLHF 训练的 AI 研究团队
  • 大语言模型对齐研究
  • 大规模分布式训练场景

不适合

  • 小规模实验(需要多 GPU)
  • 不熟悉分布式系统的初学者

标签

RLHFreinforcement-learningLLMrayvllmagent