品玩1月21日讯,谷歌研究院发文,公布了“Titans”系列模型架构,相应模型架构最大的特点是采用仿生设计,结合了短期记忆、长期记忆和注意力机制,支持超过 200 万个 Token 的上下文长度,目前相关论文已发布在 arXiv 上,谷歌计划未来将 Titans 相关技术开源。
Titans 系列模型架构通过引入深度神经长期记忆模块(Neural Long-Term Memory Module)有效解决了相应问题,其设计灵感号称来自人类的记忆系统,结合了短期记忆的快速反应与长期记忆的持久特性,并通过注意力机制来着重执行当前的上下文。
谷歌声称,Titans 系列模型架构在长序列处理任务中的表现明显优于现有模型,无论是语言建模还是时间序列预测,Titans 在准确性和效率上都展现了“压倒性优势”,甚至在某些场景中超越了如 GPT-4 等具有数十倍参数的模型。
0 条评论
请「登录」后评论