限时免费！通义千问众模态大模子重磅升级：机能赶超gpt

"限时免费！通义千问众模态大模子重磅升级：机能赶超gpt,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 "

快科技(Technology)1月26日消息，今日，阿里云公布多模态大模型研究进展。

据悉，通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后，再次推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，整体性能堪比GPT-4V和Gemini Ultra。

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越GPT-4V，达到世界最佳水平。

基础能力方面，升级版模型能够准确描述和识别图片信息，并且根据图片进行(Carry Out)信息推理、扩展创作；具备视觉定位能力，还可针对画面指定区域进行(Carry Out)问答。

视觉推理方面，Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式图片，可以分析复杂图标，看图做题、看图作文、看图写代码也不在话下。

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini
Qwen-VL-Max看图做题

图像文本处理方面，升级版Qwen-VL的中英文文本识别能力显著提高，支持百万像素以上的高清分辨率图和极端宽高比的图像，既能完整复现密集文本，也能从表格和文档中提取信息。

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini
Qwen-VL-Max复现密集文本

LLM（大语言模型）之后，大模型领域的下一个爆点是什么？多模态是当前最具共识的方向。过去半年来，OpenAI、谷歌等争相推出多模态模型，阿里云也在2023年8月发布并开源具备图文理解能力的Qwen-VL模型，Qwen-VL取得了同期远超同等规模通用模型的表现。

视觉是多模态能力中最重要的模态，作为人类感知世界、认知世界的第一感官，视觉传递的信息占据了五感信息的80%。通义千问视觉语言模型基于通义千问LLM开发，通过将视觉表示学习模型与LLM对齐，赋予AI理解视觉信息的能力，在大语言模型的心灵上开了一扇视觉的窗。

相比LLM，多模态大模型拥有更大的应用想象力。比如，有研究者在探索将多模态大模型与自动驾驶场景结合，为完全自动驾驶找到新的技术路径；将多模态模型部署到电话、机器人、智能音箱等端侧设备，让智能设备自动理解物理世界的信息；可能者基于多模态模型开发应用，辅助视力障碍群体的日常生活(Life)等等。

目前(Currently)，Qwen-VL-Plus和Qwen-VL-Max限时免费，用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型API。

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT