并指出发展多语言AI的紧迫性科学家揭示数据驱动型大模型的三大问题

近年来，以 ChatGPT 为代表的大模型飞速发展，在自然语言处理上展现出惊人的效果，俨然成为新一轮科技革命的重要驱动力量，深刻改变着人类的生产方式、生活方式和学习方式。

虽然大模型取得了突破性的进展，但其在多语言能力上的探索仍然十分滞后，并存在着诸多的局限性。

为此，北京交通大学助理教授黄锴宇和合作者，针对大模型在多语言场景下的语种维度和领域维度，进行了一次总结和分析。

日前，相关论文以《多语言大型语言模型研究综述：最新进展和新前沿》（A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers）为题发在 arXiv[1]。

黄锴宇和加拿大蒙特利尔大学博士生莫冯然是共同一作。

在这篇论文中，他们找出了通用数据驱动型大模型主要面临的三个问题：

第一，语言迁移问题。

大模型的训练数据主要专注以英文为核心的通用文本数据。

现有的具备一定多语言能力的大模型，也主要以高资源语种为主，所能支持的语种数量十分有限。

在资源受限的语种性能表现上存在一定的桎梏，比如难以生成流利的句子等。

第二，知识累积问题。

由于数据的限制，现有的数据难以实现互相共享和持续更新。

当将所有语言数据汇聚到一个语言模型中，模型的通用知识也会随着差异化训练而产生遗忘。这会让模型难以保持原本擅长的语言能力和其他能力。

不同语言之间的知识也存在冲突，造成大模型的知识持续累积能力不足，使得其在单一模型内难以实现多语言环境的通用人工智能。

第三，领域适应问题。

在多语言场景下的特定领域，大模型存在适应性不足的问题。

现有的领域级衍生大模型一般是单语模型。而在不同语言场景中，领域任务同时存在文化差异和语种差异，这时难以利用翻译、中轴语等弱对齐方式进行语料库扩展。

因此，在非英文场景之下，特定领域的语料库十分匮乏，这让模型难以扩展成为多语言的领域级大模型。

而在本次工作中，研究人员探究了当前大模型在多个维度下的多语言能力和训练方法，并提出了发掘大模型多语言潜力的方法。

同时，他们还引入“大模型的多语言性”这一概念，针对具有优质多语言能力的现有大模型进行了系统性调查。

课题组表示：大模型的多语言性，有别于传统的多语言大模型的概念。也就是说，现有的大模型不再过分强调自身是否是一个多语言大模型。

因此，该团队为这些模型提供了新的分类结构、比较分析和多视角探索，以评估其适用性和局限性，以便为大模型的有效利用提供建议。

对于大模型来说，它们基于数据驱动的范式。因此，研究人员针对与多语言有关的可用数据集和可用评测基准，也进行了总结和讨论。

通过此，他们绘制出一张概括图，并将这张图起名为“1+2+3+4”：即一个发展树（One Tree）、两种范式（Two Paradigms）、三种架构（Three Architectures）、四个未来探索点（Four Frontiers）。

通过此，他们针对近些年大模型的多语言能力，进行了一次综述性归纳，旨在探索多语言自然语言处理和多语言大模型的下一步发展方向。

正如研究人员在论文中所提到的：目前，多语言人工智能还面临着诸多挑战。而在大模型时代，这些挑战也仍旧存在。

这些挑战制约着大模型在推理能力、安全性和领域级解决方案等多方面的应用。

因此，该团队希望本次工作能够起到如下作用：即推动大模型在新一代多语言对话助手和多语言信息检索系统等方面的应用。

同时，研究人员指出在发展多语言大模型的同时，还需要思考下一代多语言人工智能的范式。

目前，大模型仍需依靠海量数据的支撑和驱动，这在多语言场景下会让其应用面临一定的掣肘。

一种语言的使用群体规模，决定了该类语音数据的规模。而一些资源匮乏的语言，也许永远不具备形成海量资源的可能。

而人类从头学习新语言、或借助一门基础语言再学习一门新语言，根本无需很多数据。即人类通过学习词汇和语法，就能很快进行造句，从而达到交流的目的。

但是，目前的人工智能技术显然并不具备这种能力，因此该团队认为多语言人工智能的进一步发展，将能够促进类人智能研究的发展，从而为探索人脑理解和生成语言的方式带来助力。

此外，由于当前大模型的数量非常多，仅国内就有两百多个大模型，因此在一篇论文中很难做到全部覆盖。

为此，研究人员发布了一个 GitHub 仓库和对应的 leaderboard，以用于陈列和在多个维度上比较现有大模型的多语言能力。

未来，除了继续维护上述仓库之外，他们也会延展多语言能力的评测方法，促进多语言社区的发展。

黄锴宇补充称：“语言，既是智能的一种表现形式，也是人类智慧的结晶，并会影响人类理解世界的方式。”

语言的界限，也意味着人类世界的界限。由于语言的独特性和多样性，打造多语言社区需要全世界人类的共同努力。

目前，英文社区仍然处于领先发展的状态，其他语言社区在这种发展态势下可能会被越拉越远，甚至逐渐消亡。

但是，多语言社区的持续发展，对于维护语言稳定和语种的多样性、以及保护资源匮乏语种不“被消亡”至关重要。

因此，黄锴宇希望多语言人工智能技术，可以成为打破语言界限的一种福祉。

参考资料：

1.https://arxiv.org/pdf/2405.10936

运营/排版：何晨龙

「大模型+大算力」加持，通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能（AGI）研究热潮，也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型，GPT-4 被视为迈向 AGI 的重要一步，标志着创新范式的深度变革和生产力的重新定义，也必将带来更多元的产品迁移。

截至目前，全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品，而这些产品将彻底改变从法律到股票交易，从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫，但与所有技术突破一样，总会存在炒作周期和意想不到的远期效果。

事实上在另一边，进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点，除了激光雷达等关键传感器的单点式突破，各大巨头也纷纷展示智能驾驶全产品矩阵，城市场景辅助驾驶量产落地加速推进。

更加值得注意的是，BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合，颇有相互交融、双向奔赴的味道。

在这背后，一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求，另一方面，AGI 的重大突破也已将触角伸向智能汽车，将其视为实现闭环应用的重要场景，很多企业布局已经相当高调。

日前，商汤科技 SenseTime 举办技术交流日活动，分享了以「大模型+大算力」推进 AGI 发展的战略布局，并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下，本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相，近 30 款合作量产车型集中展出，商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法：AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言，「AGI 催生了新的研究范式，即基于一个强大的多模态基模型，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生，或为满足自动驾驶的特定任务需求而设计。但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患，算法开发需要面对海量数据，传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。通用大模型则可用在长尾目标的初筛过程，并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。相比于人工标注，通用大模型将自动化对海量数据完成标注任务，大幅降低标注数据获取的时间成本和本身的金钱成本，从而缩短研发周期、提升成本效益。

处于类似的考量，近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类，大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力，特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后：

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT，网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘，华为也已宣布加入大模型争霸赛，自研「盘古」即将对外上线。

作为行业领先的人工智能公司，商汤在大模型领域可谓乘风破浪，过去一两年则全面将大模型能力在各业务线 20 多个场景落地，包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。商汤有自己的全栈大模型研发体系，其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如，商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体，数据质量非常高。

再比如，商汤在 2019 年就已首次发布 10 亿参数的视觉大模型，到 2022 年参数规模已达到 320 亿，这也是世界上迄今为止最大的视觉模型。

此外，商汤也在智驾领域持续展示大模型能力。 2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军，2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作，今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式：

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源，通过数据闭环开发模式和自动数据标注提升数据获取效率，更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累，商汤领先的 BEV 感知算法推进国内首批量产应用，并采用 Domain Adaption 算法有效解决跨域泛化问题。商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%，实现低成本的车端模型开发，目前也已投入量产应用。

算力：智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进，大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进，如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS，THOR 单颗算力超 2000TOPS，将大幅提升单车感知决策能力。

而在云端，AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练，从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下，近年来主流企业纷纷开启双线并行探索，车端自研算力平台，云端建立超算中心。而进入大模型时代后，数据量随着多模态的引入也将大规模增长，因此必然也会导致 AGI 对算力需求的剧增。

可以看到，英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案，特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道，埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争，已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面，吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群，投入巨大以提升智驾开发算力储备。

对于商汤来说，如果说大模型将是支撑智能驾驶的上层建筑，那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示，目前大模型对基础算力、基础设施的需求非常旺盛，基础算力对并行效率的要求也非常高，但真正好用的基础设施其实十分稀缺。

出于这一原因，商汤历时五年自建了业界领先的 AI 大装置 SenseCore，完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力，是亚洲目前最大的智能计算平台之一，可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持，打通基于数据驱动的算法生产全流程，加速高级别智能驾驶技术的 AI 模型生产和持续迭代，推动实现规模化量产。

在 AIDC 的基础上，AI 大装置也将提供支持大模型生产的一系列服务：

如此规模的算力设施即使特斯拉同期也尚难以望其项背，也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局，但事实上，这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力，商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地：

除智能驾驶领域的全栈能力和行泊一体量产解决方案外，「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间，与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相，语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车，多点融合重构人车交互方式，打造第三空间。

以「商量」为例，作为千亿级参数的自然语言处理模型，其使用大量数据训练并充分考虑中文语境，展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用，如在行车过程中化身「邮件助手」自动提炼关键信息，作为「会议助理」自动生成会议纪要，大大节省用户行车时处理工作的时间和精力，为未来出行的应用场景拓展带来丰富的想象空间。

此外，以人工智能大模型开发、生产、应用为核心，一站式

大模型驱动的数据清洗与数据合规技术展望

随着大模型技术的兴起，数据质量的重要性被提升到了新的高度，研究者开始探索大模型如何助力数据清洗和治理工作。本文将从技术角度探讨大模型驱动的数据治理技术，并聚焦于复旦大学在这一领域的研究热点，由研究员李直旭分享。首先，以数据为中心的人工智能强调在AI系统构建中，数据质量、多样性和治理流程的系统化处理。数据是AI的核心，80% 的工作集中在预训练和数据迭代上，优质数据需覆盖广、多样、实时、精准且合规。数据开发分为训练、推理和维护三个阶段，涉及数据收集、标注、预处理、评估和维护等。在大模型预训练中，数据工程工作量剧增，例如GPT的训练数据庞大且多样化。数据规模与模型性能紧密相关，数据的丰富性和质量对于训练至关重要。大模型的架构并未显著变化，而是通过数据的增加实现了性能提升。数据来源的多样性和配比决定了模型的成功，互联网数据和多模态数据的整合成为关键。大模型驱动的数据治理技术正崭露头角，面临数据治理的复杂性和多样性挑战，如行业标准各异、数据形式多样和合规性检查的挑战。小模型难以处理这些需求，但大模型凭借海量知识储备、领域知识快速掌握、多模态数据处理和决策规划能力，展现出巨大潜力。然而，大模型在数据治理中的应用仍处于初级阶段，需要解决安全可信、数据清洗、合规检查和决策规划等问题。复旦大学的研究团队在大模型驱动的数据治理中取得了一些进展，如属性值规范化、地理数据清洗、图纸合规性检查和跨模态实体链接等。大模型的应用正在逐步提升数据治理的效率和准确性，但未来仍需应对更多科学问题和挑战，包括模型安全、持续对齐政策和提升决策规划能力。总之，大模型与数据治理技术相互促进，共同推动数据质量的提升和治理工作的进步，预示着大模型在数据清洗和合规领域的广泛应用前景。

对话清华大学孙茂松：第三代人工智能要处理“可解释性”问题

正如人类会综合利用视觉、听觉、触觉、语言等信息，让人工智能（AI）从多角度、多模态、多学科学习自然语言也是清华大学人工智能研究院的目标与任务。

2019年7月1日，清华大学人工智能研究院第八个研究中心：自然语言处理与社会人文计算研究中心（以下简称中心）在校本部FIT楼举行成立仪式。中心主任由清华大学人工智能研究院常务副院长、国家重点基础研究发展计划（973计划）项目首席科学家孙茂松教授担任。

7月3日，澎湃新闻（）记者走进清华园，与孙茂松教授聊了聊这个名字格外长的中心成立的背景、担负的使命、以及当下人工智能的发展、困境与解决方法。

AI诗人、人工智能辅助法官与未来的诺贝尔经济学奖获得者

语言是人类智能的重要标志，在人类文明中的地位与作用毋庸置疑，自然语言处理，通俗地解释就是“让计算机学习人类语言”。清华大学新设立的中心旨在通过加强人工智能的基础研究及其与人文社科学科的交叉合作，建立更强大的机器用知识库，进而提升人工智能对语言的学习和处理的能力。

孙茂松认为，目前人工智能同社会科学和人文科学的结合有两个主要的桥梁，一个是狭义的数据，比如说金融市场上的数据，可根据数据来预测市场行为；另一个就是语言文字形成的文本，比如新闻、消息、用户在社交网络上反映观点和情绪的各种“短信息”等等。

基于人类语言文字这一桥梁，自2015年底起，他指导一个最初以两位本科生为主体的课题小组，通过深度神经网络的方法，让机器对全部古代诗歌进行“阅读”并“理解”，在此基础上，推出了会作诗的AI——“九歌”，使人工智能“跨界”到了文学创作领域。由于公众的关注与参与，到目前为止“九歌”已经产生了差不多400万首诗，“从古流传至今的诗歌总量估计达不到400万首，如果这么想，效果也还不错。 ”小组目前正在研究现代诗的生成，以期满足大众越来越多样的“作诗要求”。

社会人文学科是一个很宽广的概念。除了文学外，今年以来人工智能研究院正在与清华大学法学院合作，在原有的法学基础上更多地加入计算与人工智能的成分。法学院越来越认识到，“计算法学”是未来法学研究的一个发展趋势。孙茂松也提到，近年来最高人民法院领导的案卷卷宗数字化、公开化是计算法学发展的一个重要基础。

当澎湃新闻（）记者问未来是否会有“AI法官”时，孙茂松说，“应该会有‘人工智能辅助法官’。虽然本质上机器的能力肯定超不过优秀的法官，但机器确实有它的长处，比如说它可以快速阅读大量的卷宗，人有时候会判断有片面性、情绪上会有所波动、法官水平也会参差不齐，机器则不会。 ”

孙茂松指出，人工智能目前基于大数据的深层神经网络方法（也叫深度学习方法，见后）有可能为某些社会人文领域带来研究范式的改变。虽然清华人工智能研究院目前刚刚开始进行外汇兑换率预测的研究，但他认为人工智能与金融、经济的深度融合可望带来极具震撼力的成果，一旦深度学习方法被创造性地、系统性地应用到这个领域，甚至“这几年国际上能出一个诺贝尔经济学奖”。

针对金融、经济系统的高度复杂性，孙茂松认为，当把各类相关信息都涵盖进来，并且有高超的手段对这些信息进行“大一统”式的有效处理时，这个复杂系统的可预测性便会显著上升。他举了个例子，“蚂蚁王国有自己的一套运作规律，但这个规律有时会变得非常脆弱，因为可能突然来一个人，啪地来一脚，便给这个王国带来了灭顶之灾。仅仅从蚂蚁的世界来看，这个突发事件是不可预测的。但如果把人的因素包含进来，细致了解这个人的秉性，比如他是否是一个有爱心的人、是否是一名佛教徒等等，他的行为的可预测性就会大大提高，蚂蚁王国的不可预测性也会随之大大降低”。

在孙茂松看来，经典金融学或经济学的研究范式主要是依靠人的理性思辨和求解方程（无论是线性还是非线性方程）。但复杂且庞大的金融和经济系统里充满了不确定性，很多现象难以用方程显式地刻画。但深度学习方法具有高度的非线性性质，在大数据的驱动下，理论上它能隐式地模拟任何复杂的方程，更加有效地处理系统的不确定性。这就使得一种全新的金融学或经济学研究范式的产生成为可能。

把“黑盒子”变成“灰盒子”

“当代人工智能教父”、2018年图灵奖得主约书亚·本吉奥（Yoshua Bengio）认为，人工智能领域在近些年出现巨大变革要归功于 “深度学习”（deep learning）的出现。他在一篇名为《深度学习：人工智能的复兴》的署名文章中说，“近年来，深度学习已经成为了驱动人工智能领域发展的最主要力量，各大信息技术公司在这方面共掷下了数十亿美元的资金。 ”

本吉奥此前接受澎湃新闻（）记者专访时表示，现有的自然语言处理系统掌握了大量的词汇量和语言转换的技巧，但是却并不理解句子的真正含义，机器“会犯一些非常愚蠢的错误，甚至没有两岁小孩的理解能力”。同时他认为，模拟人脑的神经网络以期能够实现类人工智能的机器学习技术，即神经网络技术对于新时代的意义是巨大的。

尽管意义巨大，但目前的深层神经网络系统存在着一个重大不足：给定一个输入，系统给出相应结果的深刻原因对人来说是不透明的，从这个意义上来说，它基本上是一个“黑盒子”。这就导致系统的稳健性会变大打折扣，系统的适用范围也会缩窄。当我们深究机器为什么犯错时（如机器翻译系统为什么把一句话翻成这样、而不翻成那样），机器却无法给出解释，“反正我就翻成这样，你看着用吧。 ”

此外，深度学习最擅长处理的是关联性：当输入“公鸡打鸣”这个词语时，它会自动联想到“太阳升起来了”这句话。这体现了一种关联性，但显然前者不是导致后者的原因。深度学习现在基本上没有因果推理能力。孙茂松说，深度学习只是在统计意义上“觉得”某两个东西是相关的，但两者之间到底有没有逻辑关系，它却浑然不知。

孙茂松进一步阐释，自然语言处理研究面临着同样的难题，实际上，“可解释性”是整个人工智能领域目前面临的困境，也是目前的国际学术研究前沿。研究者们正在努力让这个人工智能“黑盒子”至少变成一个“灰盒子”。孙茂松认为，在自然语言处理方面，知识库的构建或许是一个解决方法。以古诗词写作举例：“灞桥”后接“折柳”，深度学习应该能从诗库中捕捉到这个知识关联，但其它众多知识关联是否都能学到，就不好说了。但如果我们自觉地把跟“灞桥”相关的东西全预先列出来，如“灞水、驿站、销魂、断肠、长安、关中八景、李白、李商隐、孟浩然…”，建立起一个知识图谱，那么，机器就可以根据这个知识图谱比较自觉地去写诗，针对性更强，写诗过程也便具有了一定的可解释性。

根据人工智能研究院院长张钹院士的说法，人工智能在其发展史上已经先后经历了理性主义和经验主义两代。第三代人工智能应该是这两者的完美结合。解决可解释性问题，是其核心研究任务之一。

因为知识天然地具有一定解释性，知识库就带有一种可解释性。

“通专虽应兼顾，而重心所寄, 应在通而不在专”

以人工智能和大数据为标志的第四次工业革命到来之际，国内多所高校开始布局人工智能教育。 2017年5月，中国科学院大学成立人工智能技术学院，成为我国人工智能技术领域首个全面开展教学和科研工作的新型学院；2018年，上海交通大学与南京大学先后建立了人工智能研究院与人工智能学院，南京大学还招收了首批人工智能专业本科学生。

而作为中国顶尖的高等学府，清华大学对顶尖人才培养一贯高度重视。 2005年设立的计算机科学实验班（因其创始人、“图灵奖”唯一华人获奖者姚期智而得名“姚班”）是全国乃至全球领先的计算机人才培养的摇篮。一流的高等教育有责任助力计算机科学和人工智能达至下一个令人鼓舞的高度，更应该能够给这个时代带来颠覆性的影响。

那么，人工智能本科专业的设置是否必要？人工智能要不要在本科阶段就独立成系？

“清华主要的还是要稳，没有特殊的需求不要变，一变反而变乱了，两拨人可能无序竞争了。 ” 整体稳定、积极探索是清华大学在人工智能本科教育上的方针。

今年，清华大学在“姚班”之外新设立了“智班”，全称为“清华学堂人工智能班”，在计算机教育结构大体不变的前提下，这个规模不大的实验班将对人工智能人才、特别是顶尖人才本科阶段的培养进行深度探索。而人工智能研究院的工作主要定位在研究生阶段，特别是博士生阶段的培养。

在本中心之前，清华大学陆续成立了人工智能研究院基础理论研究中心、智能机器人研究中心等七个研究机构。

孙茂松说，这八个中心的核心力量主要对应着人工智能研究的“初心”，也就是研究人的感知和认知。感知最重要的通道是视觉和听觉，所以设立了视觉智能和听觉智能中心；而认知体现人的语言、推理、逻辑、学习的能力，所以设立了基础理论中心、知识智能中心和自然语言处理中心等。再向外探索就是智能人机交互与智能多模态信息交互乃至机器人的相关研究，中心和中心之间是紧密联系、相互合作的。

刚满一周岁的清华人工智能研究院已基本实现了“整合力量、统筹安排”的目标。孙茂松表示，接下来的两个中心会分别以“社交网络大数据”和“人工智能芯片”为关键词。