界面新闻记者 |
界面新闻编辑 | 文姝琪
3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。
目前,市场上的全模态大模型较为有限。在此之前,国内外主流科技公司只有OpenAI发布过全模态大模型GPT-4o。GPT-4o的参数规模为200B,而Qwen2.5-Omni仅为7B,这一尺寸对于端侧部署特别是手机本地部署十分友好。
在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni展现出了全球最强的全模态优异性能。其中,Hugging Face的测试显示,Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio以及Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。
据界面新闻了解,Qwen2.5-Omni在低参数规模情况下全模态性能表现优异的主要原因是技术的创新突破。Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding(位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下,GPT-4o的基础仍然是Transformer架构,只是针对多模态数据进行了优化。
具体来讲,Transformer架构是单一流式计算,采用自注意力机制,一次性处理整个输入序列,不区分“思考”和“表达”,所有计算都在同一层次上完成,导致大模型在推理复杂问题时计算开销较高。Thinker-Talker双核架构区分“思考”和“表达”,Thinker负责深度推理、逻辑思维和复杂认知任,Talker负责将思考结果高效转化为流畅的语言表达或其他输出。Thinker进行多步推理,而Talker只需高效生成结果,从而优化计算效率。
在全新的技术架构下,这款全模态模型的交互能力又上了一个新的台阶,不仅让阿里AI在C端(用户)的应用多了几分想象空间,也给智能终端行业带来了更多的想象空间。
以接近人类的多感官方式交互,还能感知情绪
界面新闻记者在Qwen Chat中体验到了这款模型。在对话框中,用户可选择语音或者视频通过和Qwen2.5-Omni进行交互。
记者输入语音指令,要求Qwen2.5-Omni帮忙总结一篇文章的主要内容,它能通过语音的方式进行总结,说话的声音有语调、语气的变化,整体的交互感受是像和屏幕之外的另一个人进行语音电话。当记者要求Qwen2.5-Omni唱一首歌时,它目前还无法实现,但它的回复并不生硬:“哎呀,我还不会唱歌呢。你可以使用QQ音乐,上面有很多人唱歌。”
在播放歌曲《老男孩》的一个片段时,Qwen2.5-Omni能够听出来这是一段民谣曲风的音乐,还能听出来这是C大调。同时,它还推荐了赵雷的《成都》、周杰伦的《七里香》并询问使用者是否喜欢。当记者用非常焦躁的语气和它说话时,它不仅能感知到的情绪异常,还能像朋友一样来开导称不要把烦心事放在心上。
记者和它进行视频通话时,它能通过视频画面中的窗户和窗帘判断使用者在室内,并以此为话题展开聊天。在多人的场景中,Qwen2.5-Omni还能够理解不同说话人的语音和视频的对应关系,定位到不同说话人的穿着等状态,判断意识流视频里的情绪,这是以往单一模态的模型和AI应用所不具备的能力。
体验之后,界面新闻记者整体的感觉是,Qwen2.5-Omni在多模态方面的交互能力已经非常接近人类的交互方式,说话的音色和语气、语调也更接近真人,在实时交互的过程中的延迟较小,基本感觉不到卡顿。和几年前的智能音箱相比,Qwen2.5-Omni不再只是单纯的回复用户给出的指令,还会主动询问用户问题,让聊天变成一个可持续的过程。
除了日常的对话之外,界面新闻从一位阿里云内部人士处了解到,Qwen2.5-Omni还能处理更加复杂、专业的问题。比如,在医疗领域,诊断通常需要结合影像、病历文本和患者的语言描述完成,Qwen2.5-Omni的多模态能力能够满足这些需求,相关医疗机构在使用大模型辅助诊断时,无需为不同模态任务部署独立模型,降低开发和维护成本。
C端应用呼之欲出
Qwen2.5-Omni更接近人类的交互方式,且能感知到人的情绪,这让此前被业界看好的AI陪伴应用有了规模化落地的空间。
据界面新闻了解,阿里AI to C的应用也在尝试这个方向。去年12月,阿里旗下AI应用“通义”近期正式从阿里云分拆,并入阿里智能信息事业群。调整后通义PC及App团队与智能搜索产品“夸克”平级,通义To C方向的产品经理以及相关的工程团队,他们将一并调整至阿里智能信息事业群。
界面新闻从一位阿里智能信息事业群人士处了解到,架构调整之后,夸克和通义在定位上进行了区分,夸克主要解决用户在学习工作场景中的问题,而通义主要解决用户生活中的问题以及情感陪伴需求。
Qwen2.5-Omni发布之后,底层模型能力已经能够满足用户各种复杂的需求,通义团队需要把产品打磨好来抢占先机。
除此之外,Qwen2.5-Omni的小尺寸更方便智能终端行业进行部署。在GPT-4o仍然保持闭源的情况下,Qwen2.5-Omni以宽松的Apache2.0协议开源,且阿里云百炼平台提供API服务,所有人均可下载和商用。无论是手机、智能音箱还是家电,都在寻求更好的用户交互体验,Qwen2.5-Omni的交互能力给了这些行业更多想象空间。
比如,目前老板电器等厨房电器企业正在探索通过大模型把菜谱推荐、智能烹饪、个性化交互整合到全流程服务中,打造更智能的厨房体验。全模态大模型的核心优势在于能够理解文本、语音、图像、视频、传感器数据等多种模态的数据,从而提供更加自然、精准的烹饪辅助。
Qwen2.5-Omni具备视觉、听觉、语音等多感官交互能力,在家庭机器人领域有着较为广阔的应用前景。它不仅能完成日常任务,还能更智能地理解用户需求、实时适应环境,并提供更加人性化的互动。尤其在家庭陪伴和护理等场景中,识别老人摔倒等异常情况以及识别用户低落情绪都是非常关键的底层能力。
此前,阿里巴巴联合创始人、董事局主席蔡崇信已确认苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。实际上,OPPO、vivo、荣耀、传音等国内超90%的手机品牌都已接入千问。Qwen2.5-Omni的出现或许也会给这些品牌的手机带来新的用户交互体验。
阿里在AI大模型上的布局上显示出了非常大的决心。阿里巴巴集团CEO吴泳铭此前宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过过去十年总和。
AI也让资本市场重估阿里的价值。2025年以来,阿里巴巴美股股价已上涨55.96%。
还没有评论,来说两句吧...