在RTE2024，窥见实时AGI的未来-品玩

AI+RTE：让《Her》走进现实

GPT-4o的高级语音模式让我们看到了AI也可以具备低延迟且自然流畅的对话能力。丝滑的体验让智能助手真正摆脱了“智障”的帽子，科幻电影《Her》中的场景，走进了现实。

10月，OpenAI发布的Realtime API，让开发者可以轻松地将这种丝滑的语音体验植入自己的应用。

在此之前，需要串联多个模型的繁琐过程才能实现，例如，开发者需要使用自动语音识别工具，比如Whisper，来转录音频，将转录的文本传递给推理模型，然后使用文本转语音模型来播放响应。这种方法不仅耗时，且常常导致对话中情感、腔调和口音等重要元素的丢失。

相比之下，OpenAI的Realtime API能进一步降低语音交互的延时，能够实现更接近真人的情感和情绪表达，提供更自然的对话体验。

要实现这种体验，离不开端到端训练的语音基础模型，这依靠的是OpenAI强大的科研和工程能力，而要让这种体验走进更多用户的日常，不仅仅是停留在demo演示当中，则离不开成熟的语音模态基础设施提供支撑。为此，OpenAI找到了合适的合作伙伴，其中就有声网的兄弟公司Agora。

Agora与OpenAI宣布合作，发布了对话式AI SDK，该SDK集成了Realtime API，同时利用了Agora的智能路由和超低延迟实时网络，集成了AI回声消除和背景噪声消除等功能，确保在任何环境下都能进行精准的语音处理，成为开发者和OpenAI的GPT模型之间的可靠连接。

眼光转向国内，AI+RTE的故事同样精彩。各大模型厂商都在摩拳擦掌，试图突破“冷冰冰”的文本对话框，让用户与AI的交互来得更实时、更自然、更有温度。智谱清言、豆包和Kimi等产品都推出了自己的实时语音通话功能。

这波AI+RTE的浪潮，正在悄然改变着我们与AI对话的方式，而这可能只是智能交互新时代的开始。

AI浓度拉满的RTE2024

Agora与OpenAI的合作成为行业焦点，标志着实时互动(RTE)与人工智能正加速融合，这不是个例，已经成为一个显而易见的趋势，行业正在朝着“实时构建AGI”的愿景迈进。

十年光阴，见证变革。2015年，当第一届RTE大会在国内召开时，实时音视频还是一个相对小众的技术领域。彼时的行业氛围基本是“一片荒芜”：没有专业的技术交流平台，没有系统的知识传承，也缺乏活跃的技术社区。十年间，声网以实干者的姿态，作为RTE领域的领军企业，通过持续举办RTE大会、建设开发者社区、出版专业技术书籍等方式，逐步构建起行业完整的知识体系和交流生态。

今年8月，声网还出版了行业首本系统介绍实时互动的技术型科普书籍《读懂实时互动》，填补了RTE领域无专业书籍的空白，为行业的学习和普及提供了重要参考。

如今，RTE大会早已不是单纯的音视频技术聚会，从娱乐直播、出海、音视频会议，到在线教育、iot、数字化......历年的RTE大会就像是一个风向标，成为行业风口和技术变迁的第一手见证。随着AI大模型技术与音视频技术的深度融合，今年十周年的RTE大会更是成为AI浓度最高的一届。

从技术演进的脉络来看，实时互联网技术（RTE）经过十余年发展，已从最初的点对点通讯，发展到支撑直播、远程协作等复杂应用场景。而生成式 AI 的出现，则为RTE注入了全新的想象空间，今年的RTE2024会场内外，与会者们热切讨论着AI与RTE的结合将带来怎样的可能性。

在本届大会上，声网也正式发布了RTE+AI能力全景图，从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度，从底层的实时AI基础设施，到上层的多模态对话解决方案，再到丰富多样的应用场景，展现了RTE与AI融合的技术版图。

声网创始人赵斌描绘了生成式AI驱动下的IT行业四大变革：AI PC、AI Native Software、AI Native Cloud以及以自然语言为主的人机交互界面。值得关注的是，声网与MiniMax正在打造中国首个Realtime API，现场展示的人工智能体已实现了流畅的实时对话效果。

AI Native是一个倍受关注的概念，与其说这是一种技术选择，不如说这预示着整个产业的思维方式正在发生转变。正如Lepton AI创始人贾扬清所指出的：AI是继Web云、数据云之后的“第三朵云”。在他看来，未来应用开发将从“以流程为中心”转向“以模型为中心”，他还强调实时性与智能的结合将直接等同于生产力。这种转变堪比上世纪90年代从字符界面到图形界面的革命性跃迁。

在基础架构层面，声网CTO钟声现场展示了端边云结合的方案，在超过千人的嘈杂会场环境下，基于端边云架构的AI智能体依然展现出优秀的实时对话能力。不仅证明了分布式端边云结合方案的可行性，也展示了在复杂环境下突破次秒级响应、噪声对抗等技术难题的可能性，为解决AI大规模落地面临的成本、延迟和隐私等核心问题提供了新思路。

在商业化落地方面，与会嘉宾们普遍认为，模型小型化、计算效率提升将是必然趋势。特别是在开源架构日益普及的背景下，企业可以通过开源模型+定制化路线，实现更低成本、更快速度的落地。

当然，挑战依然存在。算力成本、端侧优化困难、商业模式待验证等问题都需要时间去解决。但从历史经验来看，一旦技术演进方向确立，这些问题往往会在产业链的共同推动下逐步得到解决。

从现场的讨论来看，RTE和AI的结合正在催生新的技术范式和商业模式，大会传递出一个清晰的共识：多模态能力的不断拓展可能成为引爆下一轮革新的关键。语音、视觉、文本等多种模态的融合，不仅扩展了AI的能力边界，更为创新应用提供了沃土。从创作辅助到智能客服，从教育培训到娱乐互动，多模态AI正在开启更多的可能性。

人机交互进化，RTC筑基未来

视觉和听觉是人类感知世界的主要通道，不仅是我们最原始的信息获取方式，也是信息密度最高、最直观的交互模式，这一基本事实决定了无论技术如何更迭，科技行业风口如何变迁，实时音视频技术（RTE）始终是提供实时通信和交互支持的核心基础，将在人机交互中扮演关键角色。

据CCW Research的报告，超过80%的客户仍然偏好基于语音的服务。这一数据印证了在AI时代，语音交互的重要性不减反增。Meta发布的智能眼镜Ray-Ban Meta就展现了这一潜力，升级后的Ray-Ban一大亮点正是实时AI视频处理和实时语言翻译能力，这些多模态功能虽然还没有全部正式推出，但从市场反馈已足见其对消费者的吸引力。可以预见，无论是对于大模型厂商还是AI硬件厂商，实时交互能力将成为行业的新标配。

然而要实现这种新的标配能力，离不开强大的底层基础设施的支撑。厂商没必要，也不可能全都去做一遍重复造轮子的事情。正如我们在视频会议、社交泛娱乐等行业发展历程中所看到的，各个厂商与声网这样的RTE-PaaS平台合作成为了一种自然的选择，这种趋势如今正在向AI领域扩展。大模型公司和开发者可以专注于模型优化和应用开发，而不必过多关注底层通信技术的复杂性。

结语

过去十年，我们见证了太多技术从概念走向普及的精彩瞬间。在技术进化的大潮中，RTE的发展轨迹同样令人瞩目。声网和RTE大会走过的这十年，是一段从技术突破到产业变革的关键旅程：RTE从一个前沿通信概念，蜕变为数字时代的关键基础设施。与此同时，我们也亲历了AI技术的加速进化——从实验室的尖端研究到开放商用，AI正以前所未有的速度渗透到各个产业场景。

传统认知中，实时交互主要解决的是人与人之间的连接问题，但在AI时代，这种连接延伸到了人与AI之间。RTE会上展示的次秒级AI对话能力，也暗示着我们正在接近一个临界点：AI不再是一个被动的工具，而是能够与人类进行真正自然交互的智能体。

当RTE与AI这两股技术浪潮交汇，我们看到的不仅是简单的技术叠加，而是一次革命性的范式转变。这种融合正在重塑我们对AGI的理解和想象——也许在下一个十年，那个能够实时感知、实时思考、实时决策的AGI，将从科幻走进现实，开启人类与人工智能协同进化的新纪元。