阿里开源通义DeepResearch的SOTA效果跨越其他模型 (阿里开源通义千问模型)
媒体讯: 9月17日,阿里巴巴开源旗下首个深度研讨Agent模型——通义DeepResearch,在多个声威评测集上取得SOTA效果(State-of-the-art),跨越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。
目前,通义DeepResearch的模型、框架和计划都已片面开源,用户可在Github、Hugging Face和魔搭社区下载模型和程序代码。
阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用
阿里开源大规模视觉言语模型Qwen-VL,基于通义千问7B打造,支持多模态输入与输入,可商用
阿里云继通义千问-7B(Qwen-7B)之后,又推出了大规模视觉言语模型Qwen-VL,并且一上线就直接开源。 这一新模型不只支持图像、文本、检测框等多种输入,还能在文本之外支持检测框的输入,成功了图像与言语的深度融合。
Qwen-VL是基于通义千问-7B打造的多模态大模型,其特点在于能够处置多种类型的输入,并经过问答方式输入相关信息。 例如,输入一张阿尼亚的图片,Qwen-VL不只能概括图片内容,还能精准定位到图片中的阿尼亚。 这一性能在测试义务中失掉了充沛验证,Qwen-VL在四大类多模态义务的规范英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)都取得了SOTA(State Of The Art)效果。
Qwen-VL系列模型具有多个清楚特点:
在详细运行场景中,Qwen-VL可以用于知识问答、图像问答、文档问答、细粒度视觉定位等。 例如,在医院导览场景中,本国友人可以经过输入图片和疑问,让Qwen-VL依据图片信息提供翻译和指引服务。
在技术细节上,Qwen-VL以Qwen-7B为基座言语模型,引入了视觉编码器ViT,并经过位置感知的视觉言语适配器衔接二者,使得模型能够支持视觉信号输入。 训练环节分为预训练、多义务预训练和监视微调三个阶段,经过大规模图像-文本配对数据和多义务视觉言语数据启动训练,最终失掉具有交互才干的Qwen-VL-Chat模型。
Qwen-VL的开源引发了普遍关注,研讨人员和开发者可以在魔搭社区和huggingface等平台上启动二次开发,并支持商用。 不过要求留意的是,商用的话要求先填写问卷开放。
项目链接:
论文地址:Qwen-VL论文
Qwen-VL的推出不只丰厚了阿里云的AI产品线,也为研讨人员和开发者提供了愈加弱小的工具,推进了视觉言语模型范围的开展。
阿里7B多模态文档了解大模型拿下新SOTA|开源
阿里巴巴mPLUG团队发布最新开源效果mPLUG-DocOwl 1.5,针对复杂多模态文档了解的四大应战提出处置方案,包括高分辨率图片文字识别、通用文档结构了解、指令遵照和外部知识引入。 mPLUG-DocOwl 1.5在10个文档了解基准上取得新高SOTA效果,数据集优化超越10个点,部分数据集超越智谱17.3B的CogAgent,在DocVQA上到达82.2的效果。 该模型具有基准上简易回答的才干,经过微调,还能具有多模态文档范围详细解释的才干,展现出运行潜力。 针对高分辨率图片文字识别应战,mPLUG-DocOwl 1.5采用UReader的切图战略,经过无参数的外形顺应切图模块,失掉一系列子图,每张子图经过低分辨率编码器启动编码,最后经过言语模型关联子图直接的语义。 该切图战略能最大水平应用已有通用视觉编码器才干,增减轻新训练高分辨率视觉编码器的代价。 在通用文档结构了解上,mPLUG-DocOwl 1.5设计了一致结构学习义务,包括全局图片文字解析、多粒度的文字识别和定位。 模型结构优化方面,采用基于“卷积+全衔接层”的H-Reducer启动特征聚合以及特征对齐,这相较于基于learnable queries的Abstractor保管了视觉特征之间的相对位置相关,更好地将文档结构信息传递给言语模型。 相比于保管视觉序列长度的MLP,H-Reducer经过卷积大幅缩减了视觉特征数量,使得LLM可以更高效地了解高分辨率文档图片。 指令遵照方面,mPLUG-DocOwl 1.5将多个下游义务一致为指令问答的方式,经过多义务结合训练失掉一个文档范围的通用模型。 在DocOwl 1.5中,作者构建了大批的详细解释数据集,经过结合文档下游义务和详细解释数据启动训练,使得模型具有给出详细解释的才干。 针对外部知识引入应战,mPLUG-PaperOwl构建了高质量论文图表剖析数据集,提供了上下文作为外部知识来源,并设计了“要点”作为图表剖析的控制信号。 基于UReader,mPLUG团队在M-Paper上微调失掉mPLUG-PaperOwl,展现初步的论文图表剖析才干。 mPLUG-DocOwl 1.5在多模态文档了解范围取得了清楚提高,但仍面临自然场景中文字识别、数学计算和通用型等方面的需求。 mPLUG团队将继续优化性能并启动开源,欢迎关注和讨论。
阿里又开源两款Qwen3模型!拿下文本嵌入模型SOTA,技术报揭发布
阿里巴巴开源Qwen3-Embedding和Qwen3-Reranker模型,刷新文本嵌入模型SOTA
阿里巴巴昨日宣布推出Qwen3-Embedding和Qwen3-Reranker系列模型,并正式发布了相关技术报告。 这两个模型均基于Qwen3基础模型训练,专为文本表征、检索与排序义务设计。
一、Qwen3-Embedding模型
Qwen3-Embedding模型接纳单段文本,将其转换为语义向量,适用于语义搜索、问答系统等场景。 该模型提供了0.6B、4B、8B三种参数规模,片面掩盖从轻量级边缘计算到高性能云端的运行场景,并支持119种自然言语及Python、Java等编程言语。
二、Qwen3-Reranker模型
Qwen3-Reranker模型接纳文本对,应用单塔结构计算并输入两个文本的相关性得分,可在各类文本检索场景中清楚优化搜索结果的相关性。 该模型相同提供了0.6B、4B、8B三种参数规模,并与Qwen3-Embedding模型协同构建端到端检索链路。
三、技术亮点与运行
四、图片展现
五、结语
Qwen3-Embedding和Qwen3-Reranker模型经过“多言语+长文本+可定制”的三位一体设计,处置了传统文本处置模型泛化性差、本钱高的痛点。 其开源战略将减速产业运行创新,推进文本检索从“关键词婚配”更新至“语义了解+灵活交互”,为AI Agent与多模态运行奠定基础。 同时,这两个模型的推出也反映出AI模型正从“通用泛化”向“精准公用”演进,为行业提供了新的优化思绪。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。