地平线张宏志：“智”空间，“芯”体验

第一电动 2021-06-21 22:00

2021年6月17日-19日，由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。站在新五年起点上，本届论坛以“新起点新战略新格局——推动汽车产业高质量发展”为主题，设置“1场闭门峰会+1个大会论坛+2个中外论坛+12个主题论坛”，全面集聚政府主管领导、全球汽车企业领袖、汽车行业精英，共商汽车强国大计，落实国家提出的“碳达峰、碳中和”战略目标要求，助力构建“双循环”新发展格局。其中，在6月19日上午举办的主题论坛“智能座舱创新技术论坛”上，地平线副总裁、车载智能交互产品总经理张宏志发表了主题演讲。以下内容为现场演讲实录：

图片 57.png

今天前面韩老师、华为的邓老师都讲了，分两个阶段看，永远都会把事情分成功能、智能，比如说手机，机器人也是一样的。

智能化能把服务以主动化的方式推送给到人，这是和以前的机器产生截然不一样的。以前的机器是一种功能的堆砌，是由人所设计出来的是固定功能的事情。所有的能力、所有的服务全部是由你来发起的，人要他做什么。

但是接下来的时候很大的区别和改变点，不管是深度学习还是宽度学习，机器会产生自主意识。因为机器给你所有内容、所有服务是基于它的理解，但是决策依然是在你这里。

像加拿大人恐惧的文化，在于当人失去了决策权力和决策能力以后，机器所做的很多决策对人所产生的影响将更加深远。

做人机交互设计时、智能座舱设计时，地平线的观点是应该锚着最后的点设计，锚着“第三生活空间”来设计，而不是在于把车的功能堆砌和完善出来。

目前来讲有两点：

第一，当前到底处于哪个时代？为什么不能说现在是智能化空间，不能让我成为智能化的合作体、协作体的原因。

地平线认为主要是技术限制了这件事情。有三点原因：

（1）比较大的计算力芯片。

（2）需要非常多非常成熟的相关算法。

（3）产生的数据、需要的数据、处理的数据超越于移动互联网。

可能需要更多GPU训练，更多数据存储，更多机房，更大的带宽。在这几个因素上都会产生限制。

现在大家更多提到的是多模交互，不管是多模感知，通过异构数据放在一起感知它，还是通过人与人的交互方式和机器交互？现在全部都集中在多模交互的阶段，最大的特征和特质在于所有提供给你的功能和服务，都是被设计师、产品经理提前预设好的。能够给你的差异性感觉是TDS的预期，可能是策略的排序优先级高低权重的差别点，难以做到伴随着数据的不断输入、群体性数据的输入而产生一定推理作用。

人类现在的所有产品设计、交互设计习惯于设计功能，这是这么多年的教育经验，没有足够强的站在上帝视角的设计机器人。本质角度更倾向于把自己作为“上帝”，创造新的生命体、归集的生命体，最大的特质是让归集的生命体自己学习自己晋华。

过去这几年和汽车行业不断合作，向车企、客户提供座舱解决方案时发现几点：

（1）最容易被用户和客户所接受的是在于把车上的功能变得智能，比如说空调、座椅、氛围灯智能，车身功能接口以及和环境做匹配关系，把不智能的设备、功能变得智能。这点最受用户的欢迎和喜欢，因为是最浅层次的满足点。

像今天在这个时候这个季节，上车很难不开空调，必然按空调。但空调主动地按下去换成机器智能化地按下去你会很满意，你对24度26度的敏感度没有那么高。但大冬天开不开窗户很敏感，抽烟的时候必然要开窗户，智能化水平反而要求更高。

（2）人和机器很大的问题是关系问题，谁做主、谁决策、谁推荐的关系问题。这时候很长一段时间人和机器共同在驾驶那款车，而那时候会影响安全。双方如何交互共同做决策变成了关键问题，更大程度上要通过人和机器的交互过程变得更安全，否则就没有交互，完全是机器自己去开，是在用L4、L5的要求在要求现有车上的智能化功能。

（3）座舱能把精神通过主动感知和连接服务，连接到网络世界中去，而智能化的最大价值在于现在处于网络连接的世界，可以通过手机把自己连接到网络，智能化的价值在于提高连接效率。

看一下地平线对技术性的理解，机器的核心价值在于主动化服务，现在所有的开发是基于给数据用神经网络结构的方法学习规律，而规律本身被学习出来后是机器可以主动服务人的基础。从2020年开始，人机交互趋势会发生非常变革性的改变，在于要往情感化方向、更加简单，并且以推理为中心所产生的交互方式。

不管是地平线交互的长安的UNI-T、UNI-K，还是广汽的AION Y，感知能力都在增强，车的感知远远超越手机，车本身所提供的感知接口丰富度是所有智能化设备中很强的。海外不管是奔驰还是宝马，全部是冲着这个方向在走。

对地平线来讲，地平线的观点是不应该再重复地把手机APP功能做更多详细化的设计和改版，让它适应于车上的屏幕。而在于要重构用的功能、内容和服务，把它全部重新连接到新的网络中去，而新的网络很大的特征是要具备推理能力。

肯定是突破性的创新，不会是渐进式的，核心整个行业应该做的事情是建立起智能大脑，让机器学习人的习惯，取得更快的进步。

列一下关系图，核心来讲在于大脑能够把推理这件事情做的更好，推理很大的特征是可以把人的时间释放出来，让人可以从事更有价值的事情。更多交互是以机器发起的这一轮进行交互，并不是由人进行交互。不管人的眼神交互、手势交互、语音交互，很大的价值在于进行第二轮决策和确认，以及对机器所做推荐的修正。

在未来好的人机交互是什么样的？应该是趋近于零的。行业的评估方法是机车和用户交互了多少次，大家一直把次数变得非常多来变成评判标准，这件事情被写上了研发、产品、设计师的KPI要求里，领导用这个东西来卡奖金、卡考核。

但越来越智能体数字应该趋向于零，现在坐在车上，车的空调自动被打开了，你才不愿意和车做交互，因为你没必要调空调。但是站在考核的角度来讲，必然是“先生我把空调给你打开了，请问25度合适于您吗？”这种感觉无非是你去饭店吃饭，今天点什么菜？辣的不辣的？有没有忌口，喝不喝啤酒，喝冰的喝凉的？喝什么？你花了20分钟和服务员掰扯完之后会发现算了，我去隔壁那家，很简单，把你们主要的菜给我推荐几个，我吃好就好了。

人不太愿意和机器过多产生交互，毕竟人和机器人是两个物种的事情，机器还是属于低级的物种，我们不愿意和蝼蚁的事情产生过多的连接和情感交互，因为它是更强的辅助。

从可实现性的角度来讲归纳成为智能化三要素，所有用户最关心的是车载AI场景应用，但场景应用需要算法，需要开发工具，需要底层计算架构的支持，需要底层芯片的算力支撑。这个系统解决的时候可以总结成三点：

（1）需要不断增长的算力，计算资源永远是不够的，如同电力系统、石油系统一样。

（2）算法。算力永远是不够的，所以算法、软件必然要跟硬件比较深度的结合设计，满足高效率问题。

（3）数据。伴随着智能化时代的来临，所需要的数据将会是非常大量的，但果人类花自己的时间不断处理数据，这就变成大家现在听的高效的话，人有多人工，它就有多智能。这是悖论的事情，根本角度是机器自己处理数据，自动化训练算法，这是解决问题的根本。

提的目标是每年对数据处理的成本以50%的成本往下降，这样才能满足爆发性数据对智能化系统的相关要求，如果数据处理不过来的话，智能化系统进化速度就会慢。

发展趋势的判断，所有的智能化以接入传感器为核心，需要接入麦克风、摄像头、激光雷达等传感器设备，传感器所输出的数据在不断增强。

比如说2023年座舱类摄像头将从DMS的角度进入500万，从OMS的角度进入800万，而麦克风数量至少是4麦克以上的。

这么多传感器和传感器像素数的增长，并且伴随着算法的增长。统计了一下，行业内在手机上以及客户的需求，赫然发现对座舱深度学习算法的需求在端侧将达到150个，通过简单的计算可以得到一点，座舱所需要的AI计算算法将会在上百T。

地平线核心观点认为要先解决算力问题，解决“地”足够丰富、足够厚实才能种出庄稼。大算力计算芯片能把生产力解决掉、释放出来。

就算有了很好的算力，需要足够好的开发工具，开发工具最大的特征是能够数据半标注、全自动标注、算法自动化训练和测试。这样这样的情况系统的进化速度才是足够快的。

地平线的想法在于把开发工具和社区开发平台做开放，满足大家在芯片上尽快把我们认知到的150多个算法开发出来，尽快迭代，看一下人机交互系统到底能进入什么样的智能化水平，再次进入下一轮迭代修正它。

基于芯片和算法提供全车智能化感知给到上层应用部分，上层应用部分能拿到环境数据进行推理，并进行多轮对话的节奏。

这是接下来发展的Roadmap，端侧算法数量在爆发式增长，2022年将会有上百个端侧算法跑在车载上。到2023年将达到150多个算法，而2023年和L3级别相配合的车将会给用去营造出来“第三空间”，那时候有些时间已经被释放出来了，那部分释放的时间只要有足够智能化的座舱，把那部分的时间发挥足够的价值，人的交互就会体现出空间。

谢谢各位！

来源：第一电动网

作者：王鸣幽

本文地址：