你是否遇到过这样的场景:面对一份包含大量图表、文字信息的会议纪要,你希望AI能帮助你快速提炼。然而,手中的AI工具却只抓取了文字部分,对关键的图表视而不见,你不得不再次手动梳理,效率还不如自己从头来做。
好的用户体验应该是这样的:
这就是最新的商汤“日日新”融合大模型展现出来的能力。它能像我们人类一样,眼观六路、耳听八方,将现实世界中的文字、图像、声音等多种信息融合起来思考,在融会贯通后,形成对世界的认知与理解,高效解决实际问题。
根据权威评测,商汤“日日新”融合大模型在AI在理解和处理复杂信息上,已经实现了行业的跨越式突破。在OpenCompass多模态评测中,“日日新”超过了GPT-4o、Claude 3.5 Sonnet等获得第一。
在另一个权威大模型测评机构 SuperCLUE 最新发布的《中文大模型基准测评2024年度报告》,商汤“日日新”融合大模型也以总分 68.3 的优异成绩,与DeepSeek V3并列国内榜首。
同一个模型、同时拿下了多模态测评和通用能力测评的双料冠军,这就比较厉害了。也就是说“日日新”融合大模型,实现了单一模型,同时在图文场景、纯语言、推理等场景能达到业内最优秀的水平。
这也意味着它解决了多模态AI领域长期存在的一个“老大难”问题——跷跷板效应。 啥意思呢?以前的多模态模型,受限于技术局限,往往只能在一个方向维度上保持高水平,熊掌和鱼翅,很难兼得。
因此目前,国内其他的语言模型和多模态模型仍然是相互独立的,难以真正实现不同模态之间的无缝融合。此次,商汤在原生融合模态训练方面取得的实质性突破,对于引领和推动国内大模型,从语言和多模态分立走向一统,将起到关键作用。
根据商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华介绍,为解决这一问题,商汤攻克了两项阻碍多模态模型研究的关键技术点:融合模态数据合成,和融合任务增强训练。通过高质量、多样化的数据积累,并创新性地进行数据再生产和合成,以及通过构建大量的跨模态桥梁等方法,从根本上解决了数据和融合等问题。
这也正是包括OpenAI、Google在内的全球顶尖研究机构都在努力攻克的方向。例如,OpenAI推出的GPT-4o,以及Google的Gemini系列,都在朝着单一模型体系融合多种模态处理能力的方向发展,力求打破AI的“感知盲区”。
实测案例,解锁更多应用场景
“日日新”融合大模型目前已经可以通过“商量”网页版进行体验,硅星人也在得知消息的第一时间对它进行了一番考验。
在教育场景中,学生常常通过手写方式记录和解答数学题。对于潦草的手写体,传统的AI模型可能难以准确识别。“日日新”融合大模型借助多模态理解能力,不但能够准确识别,还能给出详尽的解题推导过程及正确答案。
AI能懂年轻人钟爱的抽象文化吗?它不仅能认出这是个玩偶,还能分析出它的颜色、材质,甚至连设计背后的 “小心思” 和文化内涵都能 get 到位。
在真实场景中,我们常常需要解读复杂图表。“日日新”不仅能看懂这些复杂的图表,还会通过逻辑推理,将图表和内容之间的关系梳理清楚,从而提供具有实际参考价值的分析支持,无论是商业决策还是个人规划都更加从容。
多模融合,换道超车
随着融合模态有效提升AI大模型性能,商汤“日日新”融合大模态模型将广泛应用于诸多场景,包括智能硬件、在线教育、具身智能机器人等,实现跨模态交互,提升交互体验。
除此之外,采用原生融合方法训练的多模态模型,未来还有更多的潜力等待挖掘。比如落地在许多垂直行业和企业级场景,帮助企业实现“降本增效”,为社会带来效能。
想象一下,在一个智能化的产业园区里,摄像头捕捉到工人在违规操作,如果仅仅依靠传统的图像识别技术,可能只能发出一个冰冷的警报。 但有了融合大模型,它可以结合现场的视频画面、操作手册的文字说明、以及历史违规记录等多模态信息,判断工人是否真的存在安全风险,并给出更精准的指导和建议,甚至可以主动联系安全负责人。
再比如,在电商平台的客服场景中,用户发来一张商品破损的照片,并用文字描述了问题。 传统的客服系统可能需要人工介入才能判断责任归属和处理方案。但融合大模型可以同时理解图片和文字信息,快速判断破损程度和原因,并自动生成退换货申请,大大提升了客户服务的效率和用户体验。
再比如,在医疗领域,医生可以通过上传病人的影像资料和病历报告,综合分析,辅助诊断,提供更精准的治疗方案。在金融领域,分析师可以快速解读包含图表和文字的财务报告,更高效地进行投资决策。甚至在工业生产中,工程师可以通过上传设备的照片和维修记录,诊断故障原因,提供维修建议。
“日日新”融合大模型的问世,是商汤迈出的关键一步,不仅让AI大模型摆脱了“盲人摸象”的局限,成为能够理解世界、服务生活的有力助手,更将为企业级应用带来更多变革。凭借在大模型和多模态领域的技术积累,以及工程化优势,商汤找到了适合自身发展的关键路径,还将引领中国AI行业迈上原生融合发展新台阶,最终实现“换道超车”。
结语
所有这些指向一个共同的趋势:AI需要变得越来越“全能”。把不同模态的能力整合起来,AI才能解锁更多的想象空间。
话说回来,现在多模态融合发展到这个程度,其实意味着人工智能正在悄悄地改变方向。 它不仅仅是让 AI 变得更厉害,更重要的是,这意味着 AI 正朝着不再只是擅长“做题”、 “刷榜” 这些事儿了。 融合了多模态能力之后,AI 才能真的开始有能力去解决现实世界里那些复杂的问题了。 这才能真正让 AI 产生价值,而不是停留在概念上。 你可以把它理解为,AI 正在努力构建一个更强大的大脑,去理解和模拟我们真实的世界。 这样一来,人工智能才能迎来一次真正意义上的大变革,沿着 LLM->多模态->融合模态->世界模型的道路走下去。
0 条评论
请「登录」后评论