炒股票手机软件,怎么开通股票杠杆交易,低息配资公司

炒股配资公司研究团队将 ODE 和 SDE 混合用于采样

图像生成不光要好看，更要高效。

混元基础模型团队提出全新框架MixGRPO，该框架通过结合随机微分方程（SDE）和常微分方程（ODE），利用混合采样策略的灵活性，简化了 MDP 中的优化流程，从而提升了效率的同时还增强了性能。

基于 MixGRPO，研究人员提出了一个更快的变体MixGRPO-Flash，在保持相近性能的同时进一步提升了训练效率。

MixGRPO 在人类偏好对齐的多个维度上均表现出显著提升，效果和效率均优于 DanceGRPO，训练时间降低近 50%。值得注意的是，MixGRPO-Flash 可将训练时间进一步降低 71%。

开源代码请参考文末链接。

MixGRPO 模型解析 GRPO 中的 ODE-SDE 混合采样

近年来，文本到图像（Text-to-Image，T2I）任务的最新进展表明，通过在后训练阶段引入基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）策略以最大化奖励，流匹配模型的性能得到了显著提升。

具体而言，基于组相对策略优化（Group Relative Policy Optimization，GRPO）的方法近期被提出，能够实现与人类偏好的最佳对齐。

当前概率流模型中的 GRPO 方法，如 Flow-GRPO 和 DanceGRPO，在每个去噪步骤中利用随机微分方程（Stochastic Differential Equations，SDE）采样引入图像生成的随机性，以解决 RLHF 中对随机探索的依赖。

它们将去噪过程建模为随机环境下的马尔可夫决策过程（MDP），并使用 GRPO 优化整个状态 - 动作序列。

然而，由于去噪迭代过程带来的巨大开销，这显著降低了训练速度。

具体来说，为了计算后验概率的比值，必须分别使用旧策略模型和新策略模型独立完成全步骤采样。

虽然 DanceGRPO 提出了随机选择部分去噪步骤进行优化的方法，但研究团队在图 1 中的实证分析表明，随着所选子集规模的缩小，性能会出现显著下降。

图 1. 不同优化去噪步骤数量下的性能对比

根据 Flow-GRPO，流匹配中的 SDE 采样可以被构建为一个随机环境下的马尔可夫决策过程（MDP）。

在采样过程中，智能体生成一条轨迹，定义为，并获得奖励。

在 MixGRPO 中，研究团队提出了一种结合 SDE 与 ODE 的混合采样方法。MixGRPO 定义了一个区间，它是去噪时间范围的子区间，满足。

在去噪过程中，他们在区间内采用 SDE 采样，区间外采用 ODE 采样，且区间会随着训练过程从逐步移动到 0（见图 2）。

图 2. 不同采样策略下采样图像的 t-SNE 可视化

MixGRPO 将智能体的随机探索空间限制在区间内，将 MDP 的序列长度缩短为子集，并仅对该子集进行强化学习（RL）优化：

MDP 中的其他设置保持不变。MixGRPO 不仅降低了计算开销，同时也减轻了优化难度。接下来，研究团队推导 MixGRPO 的具体采样形式和优化目标。

对于确定性的概率流 ODE，其形式如下：

其中，是称为漂移系数的向量值函数，是称为扩散系数的标量函数。是时刻的得分函数。

根据 Fokker-Planck 方程 ( risken1996fokker ) ，song2020score 证明了式（2）具有以下等价的概率流 SDE，该 SDE 在每个时间点保持相同的边际分布：

在 MixGRPO 中，研究团队将 ODE 和 SDE 混合用于采样，具体形式如下：

具体来说，对于 Flow Matching（FM），尤其是 Rectified Flow（RF），采样过程可以看作是一个确定性的 ODE：

式（5）实际上是式（2）的一个特例，其中速度场

。因此，他们可以推导出 RF 的 ODE-SDE 混合采样形式如下：

在 RF 框架中，模型用于预测确定性 ODE 的速度场，表示为

。根据 liu2025flow，score 函数表示为

。噪声的标准差表示为。

根据标准维纳过程的定义，他们使用对 SDE 采用 Euler-Maruyama 离散化，对 ODE 采用 Euler 离散化，设为包含从到之间所有时间步的集合，他们构建了 MixGRPO 中的最终去噪过程如下：

MixGRPO 中的训练过程与 Flow-GRPO 和 DanceGRPO 类似，但他们仅需对区间内采样的时间步进行优化。最终的训练目标表示为：

其中，称为策略比率（policy ratio），为优势函数（advantage score）。研究团队设定，

其中，由奖励模型提供。

需要注意的是，研究团队省略了 KL Loss。

尽管 KL Loss 在一定程度上可以缓解 reward hacking 问题，但受 flow_grpo_issue7 的启发，他们在测试阶段采用混合模型采样（mixed model sampling），这能够显著解决奖励劫持问题（详见附录 A）。

与对所有时间步进行优化相比，MixGRPO 降低了策略的函数评估次数（NFE，Number of Function Evaluations）。

然而，策略的 NFE 并未减少，因为需要完整推理以获得用于奖励计算的最终图像。

对于旧策略模型的采样加速，研究团队将在后面通过引入高阶求解器进行优化。

综上所述，混合 ODE-SDE 采样在显著降低计算开销的同时，保证了采样过程不会偏离单独 ODE 或 SDE 采样在每个时间步的边际分布，这得益于概率流（probability flow）的等价性。

作为优化调度器的滑动窗口

实际上，区间在训练过程中可以是非固定的。沿着离散的去噪时间步序列，MixGRPO 定义了一个滑动窗口，并且仅在该窗口内的时间步上进行优化。

其中，是滑动窗口的左边界，是表示窗口大小的超参数。滑动窗口的左边界会随着训练的进行而移动。

在实验中，研究团队发现窗口大小、移动间隔以及窗口步长都是关键的超参数。

通过消融研究（详见实验 4.4.1），他们确定了最优的参数设置。当总采样步数时，最佳性能对应的参数为、和。详细的滑动窗口策略及 MixGRPO 算法可参见算法 1。

算法 1.MixGRPO 的训练过程

限制在滑动窗口内使用 SDE 采样，不仅保证了生成图像的多样性，还使模型能够集中精力优化该窗口内的流动。沿着去噪方向的移动反映了概率流从强到弱的随机性，如图 2 所示。

这本质上是一种贪心策略，类似于强化学习中为处理奖励而分配折扣因子的做法，即在早期过程给予来自更大搜索空间的奖励更高的权重。

研究团队发现，即使滑动窗口保持不动（Frozen），仅优化较早的时间步，MixGRPO 依然能够取得良好效果，尤其是在 ImageReward 和 UnifiedReward 指标上表现突出。

基于此直觉，他们还提出了如下的指数衰减策略，使得随去噪步数的增加而减小，从而使模型能够更专注于在更大搜索空间内进行优化。

其中，是初始移动间隔，是衰减因子，是控制衰减开始时机的阈值。指数函数计算的是，而修正线性单元定义为。

开销与性能之间的权衡

MixGRPO 在滑动窗口内采用 SDE 采样，窗口外则采用 ODE 采样，从而允许使用高阶 ODE 求解器加速 GRPO 训练时的采样过程。

利用 ODE 采样的时间步被划分为滑动窗口之前和之后两部分。

滑动窗口之后的时间步仅影响奖励计算，而窗口之前的时间步既影响奖励，也会对策略比率计算中的累积误差产生贡献。

因此，研究团队重点关注滑动窗口之后时间步的加速。

gao2025diffusionmeetsflow 已证明流匹配模型（FM）的 ODE 采样与 DDIM 等价，且上述过程也表明扩散概率模型（DPM）与 FM 在去噪过程中共享相同的 ODE 形式。

因此，专为 DPM 采样加速设计的高阶 ODE 求解器，如 DPM-Solver 系列、UniPC，同样适用于 FM。

研究团队已将 DPM-Solver++ 重新形式化，以便在 FM 框架中应用于 ODE 采样加速，详细推导见附录 B。

通过应用高阶求解器，他们实现了 GRPO 训练过程中对采样的加速，这本质上是在计算开销与性能之间的权衡。

过度加速会导致时间步数减少，必然引起图像生成质量下降，进而在奖励计算中积累误差。

实践中研究团队发现，二阶 DPM-Solver++ 足以显著加速，同时保证生成图像与人类偏好高度一致。

最终，他们采用了渐进式和冻结式滑动窗口策略，提出了 MixGRPO-Flash 和 MixGRPO-Flash*。算法的详细描述见附录 C。这些方法相比 MixGRPO 实现了更大程度的加速，同时在性能上也优于 DanceGRPO。

MixGRPO 多方面表现最佳实验设置

数据集

研究团队使用 HPDv2 数据集中提供的提示词进行实验，该数据集是 HPS-v2 基准的官方数据集。

训练集包含 103,700 条提示词；实际上，MixGRPO 在仅使用 9,600 条提示词训练一个 epoch 后，就已取得良好的人类偏好对齐效果。

测试集包含 400 条提示词。提示词风格多样，涵盖四种类型："动画"（Animation）、"概念艺术"（Concept Art）、"绘画"（Painting）和"照片"（Photo）。

模型

继承自 DanceGRPO，研究团队采用基于流匹配的先进文本生成图像模型 FLUX.1 Dev 作为基础模型。

开销评估

在评估计算开销时，研究团队采用了两个指标：函数调用次数（NFE）和训练过程中每次迭代的时间消耗。

NFE 分为和两部分。表示用于计算策略比率和生成图像的参考模型的前向传播次数；则是仅用于计算策略比率的策略模型的前向传播次数。

此外，GRPO 每次迭代的平均训练时间能够更准确地反映加速效果。

表现评估

研究团队使用四个奖励模型作为训练中的奖励指导及性能评估指标，分别是 HPS-v2.1、Pick Score、ImageReward 和 Unified Reward。

这些指标均基于人类偏好，但侧重点不同，例如 ImageReward 强调图文对齐和图像保真度，而 Unified Reward 更关注语义层面。

DanceGRPO 也证明了多奖励模型的使用能带来更优效果。为验证 MixGRPO 的鲁棒性，研究团队同样遵循 DanceGRPO，进行了仅使用 HPS-v2.1 单一奖励以及结合 HPS-v2.1 与 CLIP Score 的多奖励对比实验。

在训练时采样方面，首先对均匀分布的时间步进行变换，计算

，然后定义

。

其中，作为缩放参数，采样总步数设为。

在 GRPO 训练中，模型针对每个提示词生成 12 张图像，并将优势函数裁剪到区间内。需要特别说明的是，研究团队采用了 3 步梯度累积，这意味着在一次训练迭代中实际进行了次梯度更新。

对于滑动窗口的指数衰减策略（见公式 11），他们经验性地设置参数为和。此外，当多个奖励模型联合训练时，各奖励模型的权重均等分配。

在训练设置上，所有实验均在 32 块 Nvidia GPU 上进行，批量大小为 1，最大训练迭代次数为 300 次。

优化器采用 AdamW ( loshchilov2017decoupled ) ，学习率设为 1e-5，权重衰减系数为 0.0001。训练过程中使用混合精度，采用 bfloat16（bf16）格式，而主权重参数保持全精度（fp32）。

主实验

在主实验中，四个基于人类偏好的奖励模型按照优势函数（advantages）进行了加权聚合，具体算法见算法 1。

研究啊团队对 MixGRPO 与 DanceGRPO 的开销和性能进行了对比评估，结果汇总于表 1。

△表 1. 计算开销与性能的对比结果显示

官方 DanceGRPO 采用的函数调用次数为，为保证公平性，他们同时测试了的 DanceGRPO。

对于 MixGRPO-Flash，他们评估了渐进式（progressive）和冻结式（frozen）两种策略，并且为了公平起见，也对 DanceGRPO 采用了冻结式策略。

研究团队选取了多个场景提示语，对 FLUX.1 Dev、官方配置的 DanceGRPO 以及 MixGRPO 的生成结果进行了可视化展示，见图 3。

△图 3. 定性比较

结果表明，MixGRPO 在语义表达、美学效果及文本 - 图像对齐度方面均取得了最佳表现。

图 4 展示了在条件下，DanceGRPO、MixGRPO 及 MixGRPO-Flash 的对比结果。

可以观察到，在相同开销下，MixGRPO 的表现优于 DanceGRPO；同时 MixGRPO-Flash 通过加速采样，在降低开销的同时，生成图像的质量依然与人类偏好保持高度一致。

图 4. 不同训练时采样步数的定性比较

沿用 DanceGRPO 的实验设计，研究团队还在 HPDv2 数据集上，分别使用单一奖励模型和双奖励模型进行了训练与评估。

结果（见表 2）显示，无论是单奖励还是多奖励，MixGRPO 在域内和域外奖励指标上均取得了最佳性能。更多可视化结果详见附录 D。

表 2. 域内与域外奖励指标的比较结果消融实验

滑动窗口超参数

如上述所讲，滑动窗口的重要参数包括移动策略、移动间隔、窗口大小以及窗口步长。

研究团队对这些参数分别进行了消融实验。针对移动策略，他们比较了三种方法：frozen（窗口保持静止）、random（每次迭代随机选择窗口位置）以及 progressive（滑动窗口随去噪步骤逐步移动）。

对于 progressive 策略，他们测试了不同的调度方式，其中间隔初始设为 25，随后随训练迭代发生变化。

正如表 3 所示，结果表明在 progressive 策略下，指数衰减和恒定调度均为最优选择。

表 3. 移动策略的对比

对于移动间隔，25 是最佳设置（详见表 4）。

表 4. 移动间隔的对比

随着窗口大小的增大，的推理次数也随之增加，导致时间开销加大。

研究团队比较了不同的设置，结果如表 5 所示。

表 5. 窗口大小对比

最终，研究团队选择作为开销与性能之间的平衡点。对于窗口步长，实验结果表明是最优选择，详见表 6。

表 6. 窗口步长对比

高阶 ODE 求解器

MixGRPO 通过结合随机微分方程（SDE）和常微分方程（ODE）的采样方法，实现了利用高阶 ODE 求解器加速 ODE 采样的可能性。

研究团队首先针对求解器的阶数进行了消融实验，使用 DPM-Solver++ 作为高阶求解器，并采用 progressive 策略。结果如表 7 所示，表明二阶中点法是最优设置。

表 7. 不同阶数求解器的性能比较

随后，研究团队比较了两种加速方案：一种是采用 progressive 窗口移动策略的 MixGRPO-Flash，另一种是采用 frozen 移动策略的 MixGRPO-Flash*。

两者均通过减少窗口后端的 ODE 采样步数，在开销与性能之间取得了平衡。

然而，实际应用中，MixGRPO-Flash 需要窗口在整个训练过程中持续移动，导致被加速的 ODE 部分较短。

因此，平均来看，MixGRPO-Flash 的加速效果不及 MixGRPO-Flash* 明显。

△表 8.MixGRPO-Flash 中 progressive 和 frozen 策略的比较总结与展望

由于现有基于流匹配的 GRPO 面临采样效率低和训练缓慢等挑战，研究团队提出了 MixGRPO，一种结合了 SDE 和 ODE 采样的新型训练框架。

该混合方法使得优化能够聚焦于 SDE 采样流部分，降低了复杂度的同时保证了奖励计算的准确性。

受强化学习中衰减因子的启发，研究团队引入了滑动窗口策略来调度优化的去噪步骤。实验结果验证了所提方法在单奖励和多奖励设置下的有效性。

此外，MixGRPO 解耦了去噪阶段的优化与奖励计算，使得后者能够通过高阶求解器实现加速。

基于 MixGRPO，研究团队进一步提出了 MixGRPO-Flash，在开销与性能之间实现了平衡。

最后，他们希望 MixGRPO 能够激发图像生成后训练领域的深入研究，进一步推动通用人工智能的发展。

项目主页：https://tulvgengenr.github.io/MixGRPO-Project-Page/

论文链接：https://arxiv.org/abs/2507.21802

代码链接：https://github.com/Tencent-Hunyuan/MixGRPO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

炒股票手机软件,怎么开通股票杠杆交易,低息配资公司提示：文章来自网络，不代表本站观点。

炒股配资公司研究团队将 ODE 和 SDE 混合用于采样

杠杆配资炒股具有非常强的抗病毒能力

配资炒股新手入门尽在新浪财经APP

炒股配资app透露拍摄时也有问监制会不会太丑了

杠杆配资炒股还可能加重帕金森患者的症状

相关评论

配资炒股新手入门尽在新浪财经APP

配资服务平台忠厚的人做善事不求回报

正规股票平台公司又于今年8月将上述大模型升级至3.0版本

杠杆配资炒股还可能加重帕金森患者的症状

最专业股票配资论坛蓬莱大金需在2026年完成全部产品交付工作

济南股票配资公司前述收购事项最终能否完成尚存在不确定性

配资炒股开户方案最后就是全面撕毁约束

股票配资免费连膜布都采用医用级别的纤维材质

温州配资公司虽然这个政策还在讨论阶段

证券配资系统成为行业内最活跃的收购方之一