Qwen2.5-VL技术报告：多模态大模型的新SOTA！视觉理解能力全面超越GPT-4o

1.摘要

Qwen2.5-VL是Qwen视觉语言系列的最新旗舰产品，在基础功能和创新功能方面都有了显著的进步。Qwen2.5-VL通过增强的视觉识别、精确的对象定位、强大的文档解析和长视频理解，在理解和与世界交互方面实现了重大飞跃。因此，Qwen2.5-VL不仅在静态图像和文档理解方面表现出色，而且作为一个交互式视觉代理，能够在现实世界的场景中进行推理，工具使用和任务执行，例如操作计算机和移动的设备。该模型实现了跨领域的强大泛化，而不需要特定于任务的微调。

Qwen2.5-VL有三种尺寸可供选择，可满足从边缘AI到高性能计算的各种用例。旗舰Qwen2.5-VL-72 B型号与GPT-4 o和Claude 3.5 Sonnet等最先进的型号相匹配，尤其擅长文档和图表理解。较小的Qwen2.5-VL-7 B和Qwen2.5-VL-3B型号性能优于同类竞争对手，即使在资源有限的环境中也能提供强大的功能。

Qwen2.5-VL的突出特性如下：

强大的文档解析能力：Qwen2.5-VL将文本识别升级为全文档解析，擅长处理多场景、多语种和各种内置（手写、表格、图表、化学式、乐谱）文档。
跨格式的精确对象定位：Qwen2.5-VL解锁了更高的检测、指向和计数的准确性，支持绝对坐标和JSON格式，以实现高级空间推理。
超长视频理解和细粒度视频：我们的模型将原生动态分辨率扩展到时间维度，增强了理解持续数小时的视频的能力，同时在几秒钟内提取事件片段。
针对计算机和移动的设备的增强代理功能：利用先进的基础、推理和决策能力，通过智能手机和计算机上的上级代理功能提升模型。

如何使用和微调Qwen2.5-VL：qwen2.5-vl：阿里开源超强多模态大模型（包含使用方法、微调方法介绍）-CSDN博客

模型权重地址（魔搭社区）：魔搭社区

模型权重地址（huggingface）：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

官方博客：Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen

github地址：https://github.com/QwenLM/Qwen2.5-VL

体验地址：Qwen Chat

2.方法

模型架构

Qwen2.5-VL的整体模型架构由三个组件组成：

大型语言模型：Qwen2.5-VL系列采用大型语言模型作为其基础组件。该模型使用来自Qwen2.5 LLM的预训练权重进行初始化。为了更好地满足多模态理解的需求，作者将1D RoPE（旋转位置嵌入）修改为与绝对时间对齐的多模态旋转位置嵌入（Multimodal Rotary Position Embedding Aligned to Absolute Time）。
视觉编码器：Qwen2.5-VL的视觉编码器采用了重新设计的Vision Transformer（ViT）架构。在结构上，作者结合了2D-RoPE和窗口注意力，以支持本地输入分辨率，同时加速整个视觉编码器的计算。在训练和推理过程中，输入图像的高度和宽度在被馈送到ViT之前被调整为28的倍数。视觉编码器通过将图像分割成步幅为14的补丁来处理图像，从而生成一组图像特征。
基于MLP的视觉语言连接器：为了解决长序列图像特征带来的效率挑战，作者采用了一种简单而有效的方法来压缩特征序列，然后将其输入到大型语言模型（LLM）中。具体来说，作者不是直接使用的原始的视觉Transformer（ViT），首先将空间相邻的四个补丁功能集打包成组。然后，这些分组的特征被连接起来，并通过一个两层多层感知器（MLP）将它们投影到一个与LLM中使用的文本嵌入对齐的维度中。该方法不仅降低了计算成本，而且提供了一种灵活的方式来动态压缩图像特征序列的长度变化。

快速高效的视觉编码器

视觉编码器在多模态大语言模型（MLLM）中起着关键作用。为了解决由于原生分辨率输入而导致的训练和推理期间计算负载不平衡所带来的挑战，作者重新设计了Vision Transformer（ViT）架构。一个关键问题来自于与处理不同大小的图像相关的二次计算复杂性。

为了缓解这一点，作者在大多数层中引入了窗口注意力，这确保了计算成本与补丁数量呈线性关系，而不是二次关系。只有四层使用完全的自我注意力，而其余层使用窗口注意力，最大窗口大小为112×112（对应于8×8块）。小于112×112的区域在处理时不进行填充，保留其原始分辨率。这种设计允许模型在输入分辨率下原生操作，避免不必要的缩放或失真。

对于位置编码，作者采用2D旋转位置嵌入（RoPE）来有效地捕获2D空间中的空间关系。此外，为了更好地处理视频输入，作者将该方法扩展到3D补丁分割。具体来说，作者使用14×14图像块作为基本单元，与传统的静态图像ViT一致。对于视频数据，两个连续的帧被分组在一起，显著减少了输入语言模型的标记数量。这种设计不仅保持了与现有架构的兼容性，而且在处理顺序视频数据时提高了效率。

作者采用RMSNorm进行归一化，并采用SwigLU作为激活函数。这些选择增强了计算效率以及模型的视觉和语言组件之间的兼容性。

在训练方面，作者从头开始训练重新设计的ViT。训练过程包括几个阶段，包括CLIP预训练，视觉语言对齐和端到端微调。为了确保在不同的输入分辨率下的鲁棒性，作者在训练期间采用原生分辨率的动态采样。图像根据其原始纵横比随机采样，使模型能够有效地推广到不同分辨率的输入。这种方法不仅提高了模型的适应性，还确保了在不同大小的视觉数据中进行稳定有效的训练。

原生动态分辨率和帧率

Qwen2.5-VL引入了空间和时间维度的改进，以有效地处理各种多模态输入。

在空间域中，Qwen2.5-VL动态地将不同大小的图像转换为具有相应长度的令牌序列。与规范化坐标的传统方法不同，Qwen2.5-VL直接使用输入图像的实际尺寸来表示边界框，点和其他空间特征。这使得模型能够固有地学习尺度信息，提高其处理不同分辨率图像的能力。

对于视频输入，Qwen2.5-VL集成了动态帧速率（FPS）训练和绝对时间编码。通过适应可变的帧速率，该模型可以更好地捕捉视频内容的时间动态。与其他方法，包括文本时间戳或利用额外的头，作者介绍了一种新颖的和有效的策略，直接对齐MRoPE ID与时间戳。这种方法允许模型通过时间维度ID之间的间隔来理解时间的节奏，而不需要任何额外的计算开销。

与绝对时间对齐的多模态旋转位置嵌入

基于Qwen 2-VL中引入的多模态旋转位置嵌入（MRoPE），作者扩展了它的能力，以更好地处理视频中的时间信息。

Qwen 2-VL中的MRoPE将位置嵌入分解为三个不同的分量：时间、高度和宽度，以有效地建模多模态输入。

对于文本输入，所有三个组件都使用相同的位置ID，使得MRoPE在功能上等同于传统的1D RoPE。
对于图像，时间ID保持不变，而高度和宽度的ID基于图像内的空间位置被分配给高度和宽度分量。
当处理被视为帧序列的视频时，时间ID针对每个帧递增，而高度和宽度分量遵循与静态图像相同的分配模式。

然而，在Qwen 2-VL中，MRoPE中的时间位置ID与输入帧的数量相关联，这没有考虑视频内的内容变化的速度或事件的绝对时间（比如不同帧率下）。为了解决这个限制，Qwen2.5-VL引入了一个关键的改进：将MRoPE的时间分量与绝对时间对齐。通过利用时间ID之间的间隔，该模型能够在具有不同FPS采样率的视频中学习一致的时间对齐。

预训练

数据

与Qwen 2-VL相比，作者显著扩大了预训练数据的量，从1.2万亿令牌增加到大约4万亿令牌。预训练数据集是通过多种方法的组合构建的，包括清理原始Web数据、合成数据等。该数据集包含各种各样的多模态数据，例如图像标题、交错图像-文本数据、光学字符识别（OCR）数据、视觉知识（例如，名人、地标、植物群和动物群识别）、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于代理的交互数据。

交错的图像-文本数据：交错的图像-文本数据对于多模态学习是必不可少的，它提供三个关键益处：（1）通过同时的视觉和文本线索实现上下文学习，（2）当图像丢失时保持强大的纯文本能力，（3）提供广泛的信息。

作者开发了一个用于评分和清理数据的管道，确保只使用高质量的相关交叉数据。作者的过程包括两个步骤：标准数据清理，然后是使用内部评估模型的四阶段评分系统。评分标准包括：（1）纯文本质量，（2）图文相关性，（3）图文互补性，（4）信息密度平衡。这种细致的方法提高了模型执行复杂推理和生成连贯的多模式内容的能力。

图文相关性：分数越高，说明图片和文字之间的联系越强，图片对文字有意义的补充、解释或扩展，而不仅仅是装饰文字。
信息互补性：分数越高，说明图片和文字之间的互补信息越多。双方都应该提供独特的细节，共同创造一个完整的叙述。
平衡信息密度：分数越高，意味着图像和文本之间的信息分布越均衡，避免过多的文本或图像信息，保证两者之间的适当平衡。

以绝对位置坐标为基础的数据：作者采用原生分辨率训练，旨在实现对世界的更准确感知。相反，相对坐标不能有效地表示图像内的对象的原始大小和位置。为了解决这一限制，Qwen2.5-VL在训练期间使用基于输入图像的实际尺寸的坐标值来表示边界框和点。这种方法确保模型可以更好地捕捉对象的真实世界比例和空间关系，从而提高对象检测和定位等任务的性能。

为了提高基础功能的可推广性，作者开发了一个综合数据集，其中包含了具有引用表达式的边界框和点，同时利用了公开可用的数据集和专有数据。作者的方法涉及将数据合成为各种格式，包括XML、JSON和自定义格式，并采用复制-粘贴增强等技术和用现成的模型如Grounding DINO和SAM。该方法有助于更稳健地评估和提高接地能力。

为了提高模型在开放词汇检测方面的性能，作者扩展了训练数据集，以包括超过10，000个对象类别。此外，为了提高模型在极端对象检测场景中的有效性，作者在查询中合成了不存在的对象类别，并为每个对象构造了包含多个实例的图像数据。

为了确保更强的基于点的目标识别能力，作者构建了一个全面的指向数据集，包括公开和合成数据。具体地，数据源包括来自PixMo的公共指向和计数数据、可公开访问的对象基础数据（来自对象检测和实例分割任务）以及由自动化流水线合成的数据，用于生成针对某些图像细节的精确指向数据。

文档全解析数据：为了训练Qwen 2. 5-VL，作者合成了大量文档数据。解析文档内容的传统方法通常依赖于单独的模型来处理布局分析、文本提取、图表解释和插图处理。相比之下，Qwen2.5VL旨在为通用模型提供全面的解析、理解和转换文档格式的功能。具体来说，作者在文档中加入了各种元素，如表格、图表、方程式、自然或合成图像、乐谱和化学公式。这些元素在HTML中统一格式化，HTML将布局框信息和插图描述集成到HTML标记结构中。

作者还丰富了文档布局，并HTML中包括与每个模块（如段落和图表）对应的坐标。这种创新的方法允许包含任何文档的完整信息，包括其布局，文本，图表和插图，以标准化和统一的方式表示。因此，Qwen2.5-VL实现了多模态文档元素的无缝集成，从而促进了更有效和准确的文档理解和转换。

OCR数据：作者收集和整理来自不同来源的数据，以提高OCR性能，包括合成数据、开源数据和内部收集的数据。合成数据是通过视觉文本生成引擎生成的。为了支持更广泛的语言并增强多语言功能，作者整合了一个大规模的多语言OCR数据集。该数据集支持多种语言，如法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语。该数据集经过精心策划，以确保多样性和质量，同时利用高质量的合成图像和真实世界的自然场景图像。这种组合确保了在各种语言背景下的鲁棒性能，并提高了模型对不同文本外观和环境条件的适应性。对于图表类型的数据，作者使用matplotlib、seaborn和plotly等可视化库合成了100万个样本，包括条形图、关系图和热图等图表类别。关于表格数据，作者通过离线端到端表格识别模型处理了600万个真实世界的样本，随后过滤掉了低置信度的表格、重叠的表格和单元格密度不足的表格。

视频数据：为了确保在理解具有不同每秒帧数（FPS）的视频数据时增强鲁棒性，作者在训练期间对FPS进行动态采样，以在训练数据集中实现FPS的更均匀分布表示。此外，对于长度超过半小时的视频，作者通过有针对性的合成管道合成多帧字幕，专门构建了一组长视频字幕。作者以秒为基础的格式和小时-分钟-秒帧（hmsf）格式制定了时间戳，确保模型可以准确地理解和输出各种格式的时间。

Agent数据：作者通过提升感知和决策能力，构建Qwen2.5-VL的Agent能力。

对于感知，作者收集移动的、网络和桌面平台上的截图。合成数据引擎用于生成屏幕截图标题和UI元素基础注释。标题任务帮助Qwen2.5-VL理解图形界面，而定位任务则帮助它对齐元素的外观和功能。

对于决策制定，作者首先将移动的、Web和桌面平台上的操作统一为具有共享操作空间的函数调用格式。从开源数据中收集并由Agent框架合成的一组注释的多步轨迹被重新格式化为函数格式。作者还通过人工和模型注释器为每一步生成推理过程。具体来说，作者在屏幕截图中突出显示一个操作。然后，向注释者提供全局查询，沿着该操作前后的屏幕截图，并要求他们编写推理内容来解释该操作背后的意图。使用基于模型的过滤器来筛选低质量的推理内容。这样的推理内容防止了Qwen2.5-VL过度拟合地面实况运算，并使其在现实场景中更加健壮。

训练策略

作者使用DataComp从头开始训练Vision Transformer（ViT），使用一些内部数据集作为视觉编码器的初始化数据集，同时利用预训练的Qwen2.5大型语言模型（LLM）作为LLM组件的初始化。如表2所示，预训练过程分为三个不同的阶段，每个阶段采用不同的数据配置和训练策略来逐步增强模型的能力。

在第一阶段，只训练Vision Transformer（ViT），以提高其与语言模型的一致性，为多模态理解奠定坚实的基础。此阶段的主要数据源包括图像标题、视觉知识和OCR数据。这些数据集经过精心挑选，以培养ViT提取有意义的视觉表示的能力，这些视觉表示可以有效地与文本信息集成。

在第二阶段，所有的模型参数被解冻，模型在不同的多模态图像数据集上进行训练，以增强其处理复杂视觉信息的能力。这个阶段引入了更复杂和推理密集型的数据集，例如图文交叉数据，多任务学习数据集，视觉问答（VQA），多模态数学，基于代理的任务，视频理解和纯文本数据集。这些数据集增强了模型在视觉和语言模式之间建立更深层次联系的能力，使其能够处理日益复杂的任务。

在第三阶段，为了进一步增强模型在较长序列上的推理能力，将视频和基于代理的数据与序列长度的增加相结合。这使得该模型能够以更高的精度处理更高级和复杂的多模式任务。通过扩展序列长度，该模型获得了处理扩展上下文的能力，这对于需要长距离依赖和复杂推理的任务特别有利。

为了解决不同图像大小和文本长度带来的挑战，这可能导致训练过程中计算负载不平衡，作者采用了一种策略来优化训练效率。主要的计算成本来自LLM和视觉编码器。鉴于视觉编码器的参数相对较少，并且引入了窗口注意力来进一步降低其计算需求，作者重点关注在不同GPU上平衡LLM的计算负载。

具体来说，作者根据相应的输入序列长度动态打包数据样本到LLM，确保一致的计算负载。在第一和第二阶段，数据被统一打包为8192的序列长度，而在第三阶段，序列长度增加到32768，以适应模型处理更长序列的增强能力。

后训练

Qwen2.5-VL的后训练对齐框架采用了包括监督微调（SFT）和直接偏好优化（DPO）的两阶段优化。这种层次对齐策略将参数有效的域适应与人类偏好提取相结合，通过不同的优化目标同时解决表征基础和行为细化问题。

数据集

监督微调（SFT）阶段采用精心策划的数据集，旨在增强模型在不同模态中的指令跟随能力。该数据集包含约200万个条目，数据分布平均在纯文本数据（50%）和多模态数据（50%）之间，其中包括图像-文本和视频-文本组合。包含多模态数据使模型能够有效地处理复杂的输入。值得注意的是，虽然纯文本和多模态条目被同等地表示，但由于嵌入的视觉和时间信息，多模态条目在训练期间消耗更多的令牌和计算资源。该数据集主要由中文和英文数据组成，并补充了多语种条目，以支持更广泛的语言多样性。

该数据集的结构反映了不同程度的对话复杂性，包括单轮和多轮互动。这些互动进一步情境化的情况下，从单图像输入到多图像序列，从而模拟现实的对话动态。查询源主要来自开源存储库，其他贡献来自精选的付费数据集和在线查询数据。这种结合确保了广泛的覆盖面，并提高了数据集的代表性。

为了解决广泛的应用方案，该数据集包括常规视觉问答(VQA)、图像字幕、数学问题解决、编码任务和与安全相关的查询的专用子集。此外，还构建了用于文档和光学字符识别(DOC和OCR)、基础、视频分析和代理交互的专用数据集，以提高特定领域的熟练程度。这种结构化和多样化的组合确保了SFT阶段有效地将预先培训的表示与下游多模式任务的细微差别需求相结合，促进了稳健和上下文感知的模型性能。

数据过滤管道

训练数据的质量是影响视觉语言模型性能的关键因素。开源和合成数据集通常表现出显著的可变性，通常包含噪声，冗余或低质量的样本。因此，严格的数据清理和过滤过程对于解决这些问题至关重要。低质量的数据可能导致预训练表示与下游任务要求之间的次优对齐，从而降低模型有效处理复杂多模态任务的能力。因此，确保高质量的数据对于实现强大且可靠的模型性能至关重要。

为了应对这些挑战，作者实现了一个两阶段的数据过滤管道，旨在系统地提高监督微调（SFT）数据集的质量。该管道包括以下阶段：

第一阶段：领域分类 在初始阶段，作者使用Qwen 2-VL-72 B衍生的专用分类模型Qwen 2-VL-Instag来执行问答（QA）对的层次分类。该模型将QA对组织成8个主要领域，如编码和规划，这些领域又进一步分为30个细粒度的子类别。例如，主域编码被细分为子类别，包括代码_编译、代码_生成、代码_翻译和代码_理解。这种分层结构有助于域感知和子域感知过滤策略，使管道能够优化针对每个类别特定特征的数据清理过程。因此，这提高了监督微调（SFT）数据集的质量和相关性。

第二阶段：领域过滤 第二阶段涉及领域定制过滤，它集成了基于规则和基于模型的方法，以全面提高数据质量。鉴于文档处理、光学字符识别（OCR）和视觉基础等领域的不同性质，每个领域都可能需要独特的过滤策略。

基于规则的过滤 采用预定义的分类来消除低质量或有问题的条目。具体而言，对于与文档处理、OCR和视觉基础任务相关的数据集，将识别并删除重复模式，以防止模型的学习过程失真并确保最佳性能。此外，包含不完整、截断或格式不正确的响应（常见于合成数据集和多模式上下文）的条目也被排除在外。为保持相关性并维护道德标准，不相关或可能导致有害输出的询问和回答也会被丢弃。这种结构化方法确保数据集符合道德准则并满足特定任务的要求。

基于模型的过滤：通过利用在Qwen2.5VL系列上训练的奖励模型来进一步细化数据集。这些模型可跨多个维度评估多模态QA对。对查询的复杂性和相关性进行评估，仅保留那些具有适当挑战性和上下文相关性的示例。根据正确性、完整性、清晰度、与查询的相关性和有用性对答案进行评估。

用于增强推理的拒绝采样

为了补充结构化数据过滤管道，作者采用拒绝采样作为一种策略来细化数据集并增强视觉语言模型（VLM）的推理能力。这种方法对于需要复杂推理的任务特别重要，例如数学问题解决，代码生成和特定领域的视觉问题回答（VQA）。

拒绝采样过程从用注释丰富的数据集开始。这些数据集经过精心策划，包括需要多步推理的任务，例如数学问题解决，代码生成和特定领域的VQA。使用中间版本的Qwen2.5-VL模型，作者评估生成的响应真实数据的对比。仅保留模型输出与预期答案匹配的样本，确保数据集仅由高质量，准确的示例组成。

为了进一步提高数据质量，作者应用了额外的约束来过滤掉不需要的输出。具体来说，作者排除了表现出代码转换，过长，或重复模式的反应。这些标准确保了CoT推理过程的清晰性和一致性，这对下游应用至关重要。

通过拒绝抽样产生的数据显着提高了模型的推理能力。通过迭代地优化数据集并删除低质量或错误的样本，我们使模型能够从强调准确和连贯推理的高保真示例中学习。这种方法不仅增强了模型处理复杂任务的能力，而且为未来视觉语言建模的改进奠定了基础。

训练策略

Qwen2.5-VL的后训练过程包括两个阶段：监督微调（SFT）和直接偏好优化（DPO），这两个阶段都冻结了Vision Transformer（ViT）参数。

在SFT阶段，该模型在各种多模态数据上进行微调，包括图像-文本对，视频和纯文本，这些数据来自一般VQA，拒绝采样和专用数据集，如文档和OCR，接地，视频和代理相关任务。

DPO阶段专注于图像-文本和纯文本数据，利用偏好数据将模型与人类偏好对齐，每个样本仅处理一次，以确保高效优化。这种简化的过程增强了模型的跨模态推理和特定于任务的性能，同时保持与用户意图的一致性。

3.实验

实验部分评估了Qwen2.5-VL在各种数据集上的性能，并将其与最先进的模型进行了比较，例如Claude-3.5-Sonnet-0620、GPT-4 o-0513、InternVL2.5，以及不同大小的Qwen 2-VL。在大学水平的问题中，Qwen2.5-VL-72 B在MMMU上获得了70.2分。对于MMMUPro，Qwen2.5-VL-72 B的得分为51.1，超越了之前的开源最先进机型，实现了与GPT-4 o相当的性能。

如表4所示，为了严格评估指令调优模型在纯文本任务上的性能，作者选择了几个代表性的基准来评估模型在各种领域（包括一般任务）中的能力、包括数学和科学任务、编码任务，和对齐任务。作者将Qwen2.5-VL与几个类似大小的大型语言模型（LLM）进行了比较。实验结果表明，Qwen 2. 5-VL不仅在多模态任务上达到了最先进的（SoTA）性能，而且在纯文本任务上也表现出了领先的性能，展示了其在不同评价标准下的通用性和鲁棒性。

为了全面评估该模型在一般视觉问答和对话方面的能力，作者在不同的数据集上进行了广泛的实验。如表3所示，Qwen2.5-VL在各种VQA任务、主观评价、多语言场景和多图像问题中表现出了最先进的性能。

作者在各种OCR、图表和文档理解基准测试中评估了我们的模型。表5展示了Qwen2.5-VL模型和顶级模型在以下OCR相关基准测试上的性能比较：AI 2D、TextVQA、DocVQA、InfoVQA，图表QA、CharXiv，SEED-Bench-2-Plus、OCRBench、OCRBench_v2、CC-OCR，OmniDocBench，VCR。

作者评估了Qwen2.5-VL在指称表达理解基准上的基础能力，物体检测、自行设计的点接地基准和CountBench。作者将Qwen2.5-VL的可视接地能力与其他领先的LVLM（包括Gemini、Grounding-DINO）进行了比较，Molmo，以及InternVL2.5。

作者通过各种视频理解和基础任务评估了模型，使用的基准包括长度从几秒到几个小时的视频。表8展示了Qwen2.5-VL型号和顶级专有型号在以下视频基准测试中的性能比较：Video-MME，视频MMMU，MMVU、MVBench、MMBench-Video、LongVideoBench、EgoSchema，PerceptionTest，MLVU，LVBench，TempCompass和Charades-STA。值得注意的是，在LVBench和MLVU这两个通过问答任务评估长格式视频理解能力的测试平台上，Qwen2.5-VL-72 B取得了显著的成绩，表现明显优于GPT-4 o等强势竞争对手。

多模式模型中的代理功能对于使这些模型能够与现实世界的设备有效地交互至关重要。作者从多个方面评估了Qwen2.5-VL的代理能力。UI元素定位由ScreenSpot和ScreenSpot Pro进行评估。离线评估是在Android控件上进行的，而在线评估在包括AndroidWorld、MobileMiniWob++和OSWorld的平台上进行。作者将Qwen2.5-VL-72 B的性能与其他主要模型进行了比较，如GPT-4 o、Gemini 2.0、Claude、Aguvis-72 B和Qwen 2-VL-72 B。结果如表9所示。

4.总结

Qwen2.5-VL，这是一个最先进的视觉语言模型系列，在多模态理解和交互方面取得了重大进展。

Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力，在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入，而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。

Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。旗舰产品Qwen2.5-VL-72 B与GPT-4 o和Claude 3.5 Sonnet等领先型号相匹配或超越，特别是在文档和图表理解方面，同时在纯文本任务上保持强大的性能。更小的Qwen2.5-VL-7 B和Qwen2.5-VL-3B型号性能优于同等尺寸的竞争对手，提供了效率和多功能性。

Qwen2.5-VL为视觉语言模型设定了新的基准，展示了跨领域的卓越泛化和任务执行。它的创新为更智能和交互式的系统铺平了道路，连接了感知和现实世界的应用。

如果你觉得我的内容对你有帮助，或者让你眼前一亮，那就太好了！🎉

🌟 点赞是对我最大的鼓励，你的每一个赞都是我继续努力的动力！

👀 关注我，这样你就不会错过我接下来的精彩内容啦！我会持续分享更多有趣、有用的知识和见解。

📌 收藏这篇文章，以后需要的时候可以随时回顾，方便又实用！

如果你还有任何问题或想法，欢迎随时在评论区留言，我会第一时间回复你。让我们一起交流、一起进步！

感谢你的支持，希望我们都能在这个知识的海洋里，收获满满！💖