天行vpn破解版百度云

todaygood99918小时前翻墙3

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。

  长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点(gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。

  来自港中文(深圳)和上海交通大学的团队提出StreamBP算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。

  在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。StreamBP 适用于 SFT、GRPO、PPO 和 DPO 等常见 LLM 目标函数。代码已开源,可集成至现有训练代码。

  StreamBP 所需储存的激活值和注意力掩码(橙色)大幅低于梯度检查点(橙色 + 白色部分)。

  对于 lmhead 层,当以 SFT 或 GRPO 为目标函数时,观察到不同位置的 logits 对于目标函数的影响相互独立。因此,StreamBP 从序列维度分块天行vpn破解版百度云,每次计算单块损失函数的梯度,从而只需储存单块 logits 和 logits 梯度。

  对于 DPO,由于非线性 sigmoid 函数的存在,每个位置的 logits 对于目标函数的影响并不独立。StreamBP 利用 logits 梯度在序列维度的独立性,分块进行梯度计算。

  通过使用 StreamBP,不同目标函数下最大的序列长度得到了大幅提升。在同样的序列长度下,StreamBP 允许更大的批处理大小以加速训练。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

天行VPN公用账号

天行VPN公用账号

  角色抽取建议:作为主C,可以抽取一只。但作为开服角色,后续有被替代的风险。如果你是xp党图鉴党可以抽,强度党可以再观望一下。...

天行vpn 收钱吗

天行vpn 收钱吗

  《暗黑破坏神3》国服将于2025年4月16日开启不删档技术测试,这是暴雪与网易重新合作的标志性事件。官方承诺将完整保留停服前的所有账号数据天行vpn 收钱吗,包括角色、装备及成就,极大...

天行vpn会员控制台

天行vpn会员控制台

  《Paradise》作为一款备受瞩目的开放世界多人生活模拟游戏,以其丰富的游戏内容和无限的可能性吸引了众多玩家的关注。然而,在游戏过程中,不少玩家遇到了Paradise掉线/闪退/丢包...

用天行VPN是免费的吧

用天行VPN是免费的吧

  作为一款以奇幻大陆阿斯达为背景的MMORPG手游,《阿斯达年代记》凭借其独特的双职业系统、动态天气系统和跨服势力战争玩法吸引了大量玩家。近期,游戏更新了0.01.063.01版本,新增...