当提到百度,很多的人还只是把它的定位局限在全球最大的中文搜索引擎之上,而忽略了它作为全球知名领先AI智能公司的存在。没错,作为一家拥有高新技术产业的公司,百度正试图用自身的科技技术让这个复杂的世界更为简单,通过大数据与AI智能的运用,来解锁我们生活中便捷的使用场景。那么,百度背后的技术实力,究竟都有什么“黑科技”呢?在近日举办的百度举办Create大会-技术开放日媒体沟通会上,笔者得到了答案。
在此次的活动中,三位百度核心的技术负责人为我们解读了百度最新的技术进展,其中包括,改善使用导航应用的体验的“手机全双工语音交互”;提升智能汽车自动驾驶能力的“上帝视角BEV自动驾驶”和作为加速科学研发的百度深度学习平台“飞桨”。别看这几个技术在称谓上很是简单,但在它们的背后,却有着更为深奥的技术内涵,那么我们就来适当解读一下这三个百度“黑科技”。
如何让手机更“懂”你?
在近年来的汽车市场,带有智能语音功能的车型成为市场发展的主流,与其交互运作,也让我们在开车之余做到了“动口不动手”的操作理念,大大提高了驾乘方面的安全系数。不过,对于一些因预算有限或者别的原因而购买了“非智能化”汽车的用户,是不是就此与智能语音交互失之交臂了呢?智能手机就成为解决这一问题的最好基台。
对于手机上的语音交互功能,想必大家或多或少都曾接触过,笔者曾在手机端上的百度地图APP上就领略过这个功能,只需呼唤“小度小度”来发起语音指令,就可以查询自己的所在位置和与目的地之间的距离,并跟随语音导航前往,实现全场景语音交互。但是,有时候笔者会发现,如果此时你驾车处在一个陌生的城市,并且车里正与朋友听歌聊天的时候,此时的车窗外传来了城市交通的嘈杂声,就在这个时候,你开始用语音交互功能与手机地图软件沟通,让其为您规划一个新的目的地路线。我相信大多数人的选择,一定会让车内安静下来之后才发出指令。究其原因,还不是怕手机识别不出你说的话嘛。
没错,相比较拥有多个收音装置的汽车,手机作为只有单一收音功能的智能终端,对于车内人员的声音指令识别绝对是一件非常“头疼”的事情,特别是如果手机App在说话的时候,又在听候指令,它大部分的可能性,会识别到自己说的话,因此非常容易造成误判,尤其是导航应用,直接关系到交通安全。那么如何解决呢?
百度语音首席架构师贾磊说,在世界范围内,很长时间都没有一个方案能普适地支持在手机上实现全双工的语音交互,也就是在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。要知道,想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。这些在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。
通常,手机上喇叭距离麦克风的距离比较近,同时手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。
面对这个问题,百度的技术团队融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。
另外,在交互中,常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰,语音识别难度增大。为此,百度研发出了基于SMLTA2的多场景统一预训练模型,以此解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,这在业界同类技术中,准确率是最高的,可以说实力遥遥领先。并且,配合语音语义一体化的置信技术,百度的技术方案可以降低错误响应,并且支持交互过程中的引导和澄清,让人机交互更智能顺畅,更逼近人与人直接交互的体验。
开启上帝视角,让智能驾驶看的更远
这几年,智能自动驾驶可以说成为了汽车产业发展下半场的“门票”。也是车企或者软件公司争相投入的最新方向。不过,如果想让一台拥有自动驾驶功能的车型“动起来”,关键的因素就是如何全面准确的去感知和识别周围的环境,来确保车辆有足够的时间来避让障碍,获得更为安全的驾驶能力。
以目前的市场来看,作为电动车行业巨头的特斯拉,其自动驾驶采用了全视觉的感知方案。而国内的大部分车企则选择了包含视觉和雷达的多融合感知方案,但它们的共同点都是需要获得视觉的信号或者其它传感器的数据来进行综合运算分析,在通过系统的处理来规划行车轨迹。但是,在这个过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段会导致误差叠加,无法拼凑出道路实际情况的准确全貌,给车辆的决策规划带来困难。因此BEV(Bird's Eye View,视觉为中心的俯视图)自动驾驶感知方案就逐步成为了解决这一类问题的全新答案。
不同于传统的方式,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加。
听着是不是有点迷糊?那举个例子。
现在很多车都有环视功能,在环视功能中,最终环视影像会给出车辆周围360度的场景信息。比如泊车入位,以一个上帝视角直接看到周围空间,这时停车就变得很简单,为什么?因为人脑不需要做观测、拼接,直接拿到了上帝视角,做决策规划。再回到自动驾驶系统,上帝视角对系统的简化和帮助很多,这也是自动驾驶的感知架构演化对我们提出的第一个要求。因此基于BEV功能,就能让我的车辆看的更远也更明白。
另外,这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。目前,百度Apollo的ANP3.0智驾系统就采用了BEV解决方案,而它?成为国内唯一一个能依靠纯视觉跑通城市域多场景的智驾方案。并在2023年,百度ANP3.0将在部分车型上规模落地。
除了BEV自动驾驶感知方案,在自动驾驶方面百度还首次提出了车路一体的解决方案UniBEV。该方案集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。在基于统一的BEV空间,UniBEV车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。因此百度借助大数据+大模型+小型化技术闭环,在车端路侧的动静态感知任务上都取得了领先的成绩。
缩短科学研究的进程 百度飞桨来了
就目前来看,科学技术的发展一定少不了实验与理论的验证,无论是生命科学,还是工业产品等,都需要背后的科研人员付出努力。比如汽车,从设计图到实车的落地,需要经历无数次的实验和测试。其中,最烧钱的就是风洞测试。俗话说“风洞一响,黄金万两”。想要打造一个风洞试验场,需要花费大量的时间和成本。 因此在如何加速研发的进程中,人工智能科学计算(AI for Science)的运用就成为了缩短这一时间成本的最好选择。
纵观行业,现在已经有许多科学家团队正在用AI帮助解决科学难题。比如在气象领域,AI实现更快更精准的数值天气预报,包括预测强对流天气的短时临近降水情况和揭示大尺度的台风形成和演变规律。在生命科学领域,传统的科研方法面临生物类型实验数据少、计算任务复杂、学科交叉多等挑战,而随着AI应用探索的持续推进,AI已逐渐在药物筛选、药物设计、靶点研究、合成生物学、疾病机理研究等方面实现落地和持续地进步。
不过,AI 为解决科学问题带来新方法的同时,也对AI基础软硬件带来诸多新挑战。这是因为深度学习平台需要具备更加丰富的各类计算表达能力,并且科学问题求解需要超大规模的计算,这对深度学习平台与异构超算/智算中心适配及融合优化,神经网络编译器加速和大规模分布式训练提出了新的要求。
那么如何解决呢?
近几年,百度飞桨团队在这些问题取得了进展。作为国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,飞桨研发了一系列用于科学研究的工具组件,比如赛桨PaddleScience、螺旋桨PaddleHelix、量桨Paddle Quantum等,支持复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域算例,广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用。
科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术PGLBox,是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模,目前已经在百度的智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。
在科研生态方面,百度飞桨已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区,包括飞桨特殊兴趣小组(PPSIG)、共创计划等,与各方一道进行技术联合开发、推广资源共享,生态商机共建。
自2019年以来,百度AI的能力逐渐下沉,开始跟产业经济和生产一线相结合,在飞桨上也越来越多有类似的人工智能项目运行,比如智能质检,比如对于农产品的智能分拣等等。而这些与产业相结合的人工智能应用模型,飞桨已经积累了超过1000个。由于这些模型最终都成功运营,所以类似需求的开发者只要将这些模型针对自己的一些特征进行修改调试,就可以在短时间内拿出一个成型的人工智能解决方案和项目实施计划。
所以在这个AI for Science的赛道中,对百度飞桨来说是 AI 能力的挑战,但一次次技术突破,成为了百度飞桨提升能力的机会,而这也能够缩短我们实现技术强国的梦想之路。
百度飞桨的未来,一定会更精彩。
写在最后
说实话,此次的媒体沟通会,仅是这三项技术就已经深深震撼到笔者,其背后的实力想必也凝聚了百度在多年深耕智能科技后的技术结晶。没错,在这个智能化的时代,因科技改变生活的事情早已成为习惯,而我们也在不断的学习和体验中适应了这样的节奏。或许是因为这样,作为推进智能化“造福于民”的百度,也在为我们的福祉,做出自己应有的努力。
智慧是这个世界上最强大的力量,我相信百度的“硬核”技术不止于此,那就共同期待1月10日举办的百度create开发者大会,届时百度还会带来怎样的“黑科技”呢?我们拭目以待。