上海人工智能实验室联合商汤科技与高校共同发布通用视觉技术体系“书生”-品玩

11月17日，上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”（INTERN），该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。目前技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布（arxiv.org/abs/2111.08687），基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源，向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab（github.com/open-mmlab）、OpenDILab（github.com/opendilab）一道，共同构筑开源体系OpenXLab，助力通用人工智能的基础研究和生态构建。

上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”（INTERN）

任务通用和数据学习效率是制约当前人工智能发展的核心瓶颈问题。根据相关技术报告，一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在ImageNet（www.image-net.org/challenges/LSVRC/index.php）等26个最具代表性的下游场景中，书生模型广泛展现了极强的通用性，显著提升了这些视觉场景中长尾小样本设定下的性能。

相较于当前最强开源模型（OpenAI 于2021年发布的CLIP），“书生”在准确率和数据使用效率上均取得大幅提升。具体而言，基于同样的下游场景数据，“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“书生”在数据效率方面的提升尤为令人瞩目：只需要1/10的下游数据，就能超过CLIP（openai.com/blog/clip）基于完整下游数据的准确度，例如在花卉种类识别FLOWER（www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html）任务上，每一类只需两个训练样本，就能实现99.7%的准确率。

随着人工智能赋能产业的不断深入，人工智能系统正在从完成单一任务向复杂的多任务协同演进，其覆盖的场景也越来越多样化。在自动驾驶、智能制造、智慧城市等众多的长尾场景中，数据获取通常困难且昂贵，研发通用人工智能模型，对于降低数据依赖尤为重要。而突破“工业应用红线”的模型，需满足同时完成多任务、覆盖大量长尾场景，且基于下游小样本数据进行再训练等要求。上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“书生”通用视觉技术体系，体现了产学研合作在通用视觉领域的全新探索，为走向通用人工智能迈出坚实的一步。借助“书生”通用视觉技术体系，业界可凭借极低的下游数据采集成本，快速验证多个新场景，对于解锁实现人工智能长尾应用具有重要意义。

“当前发展通用视觉的核心，是提升模型的通用泛化能力和学习过程中的数据效率。面向未来，‘书生’通用视觉技术将实现以一个模型完成成百上千种任务，体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。

商汤科技研究院院长王晓刚表示，“‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试，也是SenseCore商汤AI大装置背景下的一次新技术路径探索。‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼。希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术，促进AI规模化落地。”

书生（INTERN）在分类、目标检测、语义分割、深度估计四大任务26个数据集上，基于同样下游场景数据（10%），相较于最强开源模型CLIP-R50x16，平均错误率降低了40.2%，47.3%，34.8%，9.4%。同时，书生只需要10%的下游数据，平均错误率就能全面低于完整（100%）下游数据训练的CLIP。

阶梯式学习：七大模块打造全新技术路径

通用视觉技术体系“书生”（INTERN）由七大模块组成，包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块，以及区分上下游的四个训练阶段模块。

书生作为中国古代读书人的经典形象，代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色：从基础的知识技能学习开始，到对多种专业知识触类旁通，进而成长为拥有通用知识的通才。将全新的通用视觉技术体系命名为“书生”，意在体现其如同书生一般的特质，可通过持续学习，举一反三，逐步实现通用视觉领域的融会贯通，最终实现灵活高效的模型部署。

当前的AI系统开发模式下，一个AI模型往往只擅长处理一项任务，对于新场景、小数据、新任务的通用泛化能力有限，导致面对千变万化的任务需求时，须独立开发成千上万种AI模型。同时，研究人员每训练一个AI模型，都需构建标注数据集进行专项训练，并持续进行权重和参数优化。这种低效的学习训练方法，导致人力、时间和资源成本居高不下，无法实现高效的模型部署。

“书生”的推出能够让业界以更低的成本获得拥有处理多种下游任务能力的AI模型，并以其强大的泛化能力支撑智慧城市、智慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。

通用视觉技术体系“书生”（INTERN）由七大模块组成，包括3个基础设施模块、4个训练阶段模块

持续成长：“四阶段”提升通用泛化

在“书生”（INTERN）的四个训练阶段中，前三个阶段位于该技术链条的上游，在模型的表征通用性上发力；第四个阶段位于下游，可用于解决各种不同的下游任务。

第一阶段，着力于培养“基础能力”，即让其学到广泛的基础常识，为后续学习阶段打好基础；第二阶段，培养“专家能力”，即多个专家模型各自学习某一领域的专业知识，让每一个专家模型高度掌握该领域技能，成为专家；第三阶段，培养“通用能力”，随着多种能力的融会贯通，“书生”在各个技能领域都展现优异水平，并具备快速学会新技能的能力。

在循序渐进的前三个训练阶段模块，“书生”在阶梯式的学习过程中具备了高度的通用性。当进化到第四阶段时，系统将具备“迁移能力”，此时“书生”学到的通用知识可以应用在某一个特定领域的不同任务中，如智慧城市、智慧医疗、自动驾驶等，实现广泛赋能。

产学研协同：开源共创通用AI生态

作为AI技术的下一个重大里程碑，通用人工智能技术将带来颠覆性创新，实现这一目标需要学术界和产业界的紧密协作。上海人工智能实验室、商汤科技、港中文以及上海交大未来将依托通用视觉技术体系“书生”（INTERN），发挥产学研一体化优势，为学术研究提供平台支持，并全面赋能技术创新与产业应用。

明年年初，基于“书生”的通用视觉开源生态OpenGVLab将正式开源，向学术界和产业界公开预训练模型、使用范式和数据库等，而全新创建的通用视觉评测基准也将同步开放，推动统一标准上的公平和准确评测。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道，共同构筑开源体系OpenXLab，持续推进通用人工智能的技术突破和生态构建。

附：

1. 技术报告《INTERN: A New Learning Paradigm Towards General Vision》链接：arxiv.org/abs/2111.08687

2. OpenMMLab开源网址：github.com/open-mmlab

3. OpenDILab开源网址：github.com/opendilab

关于商汤科技

作为人工智能软件公司，商汤科技以“坚持原创，让AI引领人类进步”为使命，“以人工智能实现物理世界和数字世界的连接，促进社会生产力可持续发展，并为人们带来更好的虚实结合生活体验”为愿景，旨在持续引领人工智能前沿研究，持续打造更具拓展性更普惠的人工智能软件平台，推动经济、社会和人类的发展，并持续吸引及培养顶尖人才，共同塑造未来。

商汤科技拥有深厚的学术积累，并长期投入于原创技术研究，不断增强行业领先的全栈式人工智能能力，涵盖感知智能、决策智能、智能内容生成和智能内容增强等关键技术领域，同时包含AI芯片、AI传感器及AI算力基础设施在内的关键能力。此外，商汤前瞻性打造新型人工智能基础设施——SenseCore商汤AI大装置，打通算力、算法和平台，大幅降低人工智能生产要素价格，实现高效率、低成本、规模化的AI创新和落地，进而打通商业价值闭环，解决长尾应用问题，推动人工智能进入工业化发展阶段。

商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块，相关产品与解决方案深受客户与合作伙伴好评。

商汤科技现已在香港、上海、北京、深圳、成都、杭州、南平、青岛、三亚、西安、台北、澳门、京都、东京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首尔等地设立办公室。另外，商汤科技在泰国、印度尼西亚、菲律宾等国家均有业务。更多信息，请访问商汤科技网站、微信、微博和领英。

联系我们

商汤科技卜瑶函电话：13439009544 邮件：pr@sensetime.com

关于上海人工智能实验室

上海人工智能实验室是我国人工智能领域的新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，突破人工智能的重要基础理论和关键核心技术，打造“突破型、引领型、平台型”一体化的大型综合性研究基地，支撑我国人工智能产业实现跨越式发展，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

上海人工智能实验室许凤婷

电话：17749763989 E-mail: Comm@pjlab.org.cn

如需了解更多信息，请访问：www.shlab.org.cn/；或关注公众号：