豆荚加速器vpn吧
字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。
整体而言,虽然是“以小博大”,但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。
当然,以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。
除此之外,新模型还擅长处理Agent任务。它在GUI界面操作和游戏场景中,显著优于OpenAI的CUA和Claude 3.7等模型。
SeedViT:用于对图像和视频进行编码;MLP适配器:将视觉特征投射为多模态token;大语言模型:用于处理多模态输入并执行推理。
模型支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。
在视频处理方面,团队提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。
此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记(timestamp token)。
首先,团队使用了3万亿个多样化且高质量的多模态标注,这些数据是根据模型需要发展的特定能力来组织和分类的。
阶段0:仅训练MLP适配器,以对齐视觉编码器和语言模型;阶段1:训练所有模型参数,重点是掌握视觉定位和OCR能力;阶段2:增加数据多样性,扩展序列长度,以适应视频理解和复杂推理任务。
大多数子类别的数据训练损失与训练标记数量之间遵循幂律关系,即训练损失随着训练标记数量的增加而减少。
此外,某一子类别的训练损失与该类别对应的下游任务评估指标之间呈现对数线性关系(例如:评估指标 ∼ log(训练损失))的趋势,尤其在局部区域内尤为显著。
其二,结合人类反馈和可验证奖励信号,通过PPO算法进行训练,以提高模型的对齐能力和推理能力。
他们构建了一条完整的数据pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。
并且在强化学习过程中,监督信号通过奖励模型和规则验证器(rule verifiers)仅作用于模型生成的最终输出结果。
也就是说,团队特意避免对模型的详细链式思维推理(chain-of-thought reasoning)过程进行监督。
混合并行化:针对视觉编码器和语言模型的不同特点,采用不同的并行策略;工作负载平衡:通过贪心算法重新分配视觉数据豆荚加速器vpn吧,平衡GPU工作负载;并行感知数据加载:减少多模态数据的I/O开销;容错机制:使用MegaScale框架实现容错,确保训练的稳定性。
实验结果显示,新模型在60项公开基准测试中取得了38项新SOTA,其中包括19项视频基准测试中的14项,以及7项GUI智能体任务中的3项。
单拎出多模态智能体任务来看,它在多个GUI任务上,优于OpenAI的CUA和Claude 3.7等现有模型。
在无明显标识的情况下,o3曾因猜出的位置距离正确答案(加州埃尔格拉纳达附近的一家露天酒吧里)仅相差200-300公里而出圈。
不过最后需要提醒,团队表示新模型仍存在一些局限性,尤其是在细粒度视觉感知、三维空间推理以及复杂组合搜索任务方面。