您当前位置：首页 - 科技动态 - 阿里通义千问发布Qwen2-VL：开源2B/7B参数大模型，革新图像处理技术

阿里通义千问发布Qwen2-VL：开源2B/7B参数大模型，革新图像处理技术

文章来源：互联网作者：稻谷资源网发布时间：2024-10-02 22:59:09

近日消息，通义千问团队宣布对Qwen-VL模型进行重要升级，正式推出其迭代版本——Qwen2-VL模型。这次更新聚焦于视觉语言理解领域，旨在通过深度学习技术的优化，增强模型在处理图像与文本交叉信息方面的性能，提升多模态应用场景的准确性和创造力，为用户带来更高效、智能的视觉语言交互体验。

阿里通义千问发布Qwen2-VL：开源2B/7B参数大模型，革新图像处理技术

Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。

另一个关键架构增强是 Multimodal Rotary Position Embedding（M-ROPE）。通过将 original rotary embedding 分解为代表时间和空间（高度和宽度）信息的三个部分，M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。这使 LLM 能够充当多模态处理器和推理器。

在 7B 规模下，Qwen2-VL-7B 保留了对图像、多图像和视频输入的支持，以更具成本效益的模型大小提供“具有竞争力”的性能。

Qwen2-VL-2B 模型针对潜在的移动部署进行了优化。尽管参数量只有 2B，但官方表示该模型在图像、视频和多语言理解方面表现出色。

《通义千问》用处介绍

《通义千问》用处介绍，不少小伙伴对于这个通义千问的具体作用不清楚，这个通义千问是阿里大语言大模型，下面去看看它有什么用处吧。

《通义千问》用处介绍

通义千问用处介绍

据悉，阿里达摩院在NLP自然语言处理等前沿科研领域早已布局多年，并于2019年启动大模型研发。继多模态大模型M6、语言大模型PLUG之后，阿里达摩院于2022年9月发布“通义”大模型系列。

从官方网站提供的“职场助理”“电影脚本”“写封邮件”“撰写短文”四个示例可以看出，阿里这个大模型主要提供的功能是问答，实现输出简单文字、故事以及资料的收集等等。本质上，通义千问就是一个大语言模型，基本功能就是文本生成。

对于命名缘由，官方并未透露。通义千问的回答是：“通义千问”这个名字来源于两个方面，“通义”意味着该模型具有广泛的知识和普适性，可以理解和回答各种领域的问题。作为一个大型预训练语言模型，“通义千问”在训练过程中学习了大量的文本数据，从而具备了跨领域的知识和语言理解能力。

“千问”代表了模型可以回答各种问题，包括常见的、复杂的甚至是少见的问题。它表达了通义千问致力于满足用户在不同场景下的需求，无论问题多么复杂或者独特。综合起来，“通义千问”这个名字表达了这款人工智能语言模型的强大功能和广泛适用性。

例如，网站“百宝袋”页面提供“效率类”“生活类”“娱乐类”三大类别，以及“写提纲”“SWOT分析”“商品描述生成”“小学生作文”“写情书”“为你写诗”等九大场景，供用户内测。值得注意的是，“商品描述生成”正与阿里的电商业务相匹配。

相比3月16日公布的文心一言，通义千问只提供了文本生成功能，并没有强调语音、图片等多模态功能，但从用户需要的场景出发，提供了易用性和亲和力。

通义千问并不完美，但其自然语言处理、上下文理解等方面的表现都中规中矩，毕竟目前仍处于内测阶段，生成式AI需要经历不断深度学习和打磨。

目前，大语言模型已成为互联网和初创企业加速布局的热门赛道。如今，百度、阿里两家都开启了大语言模型的内测，华为、腾讯等势必也不会落后太久，所以一场大语言模型的竞争热潮已经来开帷幕。

复制本文链接攻略文章为稻谷资源网所有，未经允许不得转载。

LG Display与三星显示携手突破，串联OLEDoS技术原型问世：更高亮度

LG Display与三星显示携手突破，串联OLEDoS技术原型问世：更高亮度

Kimi开启AI视频生成内测，每日免费提供100秒创作时长

Kimi开启AI视频生成内测，每日免费提供100秒创作时长

相关下载

相关攻略

热门资讯

热门游戏榜

MORE +

合集推荐