2023年1月6日,百度召开Create Conference媒体沟通会——技术开放日。三位百度核心技术负责人到场,依次讲解百度最新技术进展,密集展示百度如何践行“用技术让复杂的世界更简单”的愿景。
活动期间,百度不仅展示了如何以“手机全双工语音交互”提升导航应用的使用体验,还详细介绍了如何利用“上帝视角”提升汽车的自动驾驶能力,以及如何利用百度自主研发的深度学习平台加快科研速度。每一项研究都一针见血,每一项都有全球业界唯一或领先的突破,彰显了百度的技术实力。
百度在技术研发上的投入超过1000亿元,开发了大量行业领先的技术。百度的黑科技已经渗透到社会的方方面面,从改善日常生活体验,到推动前沿科技产业落地,再到加速基础科学研究。
这三项只是百度前沿技术的一部分。百度将于1月10日举办新的百度CreateAI开发者大会,届时将有更多百度技术大牛展示百度黑科技,进一步展示技术创新的力量如何促进增长。
“手机全双工语音交互”,遥遥领先。
想象你正开车去一个陌生的城市。车里放着音乐,同行的朋友在聊天,车外隐约传来一些交通噪音。你需要用手机实时播放的导航语音来找路。
朋友们临时商量了一下,决定改变目的地,去一家餐厅吃饭。保险起见,你需要把车停在路边,重新设置目的地,让地图软件重新设置你的导航路线。
这是因为手机里的软件语音播报导航信息时,通常无法识别你说了什么。背后的原理不难理解。如果手机App是边听边说,可能会识别出说的是什么,非常容易造成误判,尤其是导航类应用,直接关系到交通安全。
百度首席语音架构师雷佳表示,在国际上,很长一段时间内,没有一种解决方案能够在手机上普遍支持全双工语音交互——在播放导航提示的同时,手机也能清楚地听到我们的指令,甚至像真人对话一样随时被我们打断,并反馈新的语音指令。
困难很多。要实现全双工语音交互,必须先做回声消除,以免手机终端识别不出其播放的声音。雷佳说,很容易在预装软件的音箱和车载系统上实现,通过硬件适配算法可以提前保证回声消除的效果。
手机App是纯软件后装方案,需要软件算法适应不同类型的终端硬件。通常手机上的扬声器和麦克风距离比较近,而手机终端款式多,硬件参差不齐。这些因素的叠加会导致声音信号的回声消除出现各种问题。再加上手机硬件的快速迭代更新,回音消除效果就更难保证了。
这个问题已经被百度解决了。百度的技术团队结合了传统信号处理和深度学习模型各自的优势,基于语音识别的目标进行端到端的回声消除和信号增强,从而解决了手机场景下的回声消除问题。即使把手机音量调到最大,回声消除量也能达到40分贝,让手机APP的语音识别功能正常工作。
这是全球乃至全行业第一个可以在手机上实现纯软件回声消除的技术。
虽然手机的便携性导致语音交互的使用场景非常复杂,但也经常面临其他信息干扰,比如音乐、聊天、环境噪音、内部噪音残留等。,与交互内容无关,语音识别难度增加。而百度研发的基于SMLTA2的多场景统一预训练模型,一个模型解决了噪音、用户口音、回声消除残留吸收等问题,每个场景下的识别率相对提升了20%以上,是业内同类技术中准确率最高的。可以说实力遥遥领先。
借助语音语义融合的置信度技术,百度的技术方案可以减少错误响应,支持交互过程中的引导和澄清,使得人机交互更加智能流畅,更接近人与人直接交互的体验。
目前百度已经在手机上实现了自然流畅的全双工语音交互,下一步将会使用更多的产品。
更强大的“上帝视角”,帮助智能汽车解锁“千里眼”
自动驾驶系统可以取代人类司机,让出行变得更简单,成为众多科技公司争相投资的方向。要让汽车自动驾驶,关键在于让系统全面准确地感知和识别周围环境。
驾驶员主要依靠视觉观察道路和周围情况,而汽车则依靠激光雷达、毫米波雷达、高分辨率摄像头等传感器,这些传感器决定了自动驾驶系统能够获取什么样的环境和路况信息。
在自动驾驶领域,传统的图像空间感知方法是分别对雷达、摄像头等不同传感器采集的数据进行分析计算,并将分析结果融合到统一的空间坐标系中,规划车辆的行驶轨迹。在这个过程中,每个独立传感器收集的数据往往受到特定视角的限制。经过各自的分析计算,融合阶段会导致误差的叠加,无法拼凑出准确的实际路况全貌,给车辆的决策和规划带来困难。
近年来,业内提出了BEV自动驾驶感知方案。与传统方式不同的是,BEV自动驾驶感知就像一个从高处看全局的“上帝视角”。车上多个传感器采集的数据会输入到统一的模型中进行整体分析推理生成鸟瞰图,可以有效避免误差叠加;该方案还可以实现时间序列整合,不仅可以采集和分析某一时刻的数据,还支持将过去时间段的数据整合到模型中进行环境感知建模。时间序列信息的引入使感知结果更加稳定,使车辆对路况的判断更加准确,自动驾驶更加安全。
作为全球自动驾驶技术第一梯队的玩家,百度并没有止步于BEV自动驾驶感知方案。它还在行业内首次提出了车路一体化解决方案UniBEV。它集成了车侧多摄像头、多传感器在线地图绘制、动态障碍物感知和路边视角的多路口多传感器融合等任务。这是业内首个车路一体化的端到端感知解决方案。
基于统一的BEV空间,UniBEV车路一体化模型更容易实现多模态、多视角和多时间的时空一体化特征。借助百度大数据+大模型+小型化技术的闭环,在车侧动态和静态感知任务上取得领先成果。
硬核推进器加速科研。
人工智能作为一种通用技术,不仅有能力猜测你喜欢什么,让汽车自动驾驶,还能帮助很多领域的科学家加快科研进程,这就是人工智能科学计算。
现在许多科学家团队正在使用人工智能来帮助解决科学问题。例如,在气象学领域,AI可以实现更快、更准确的数值天气预报,包括强对流天气的短时近降水预报,揭示大范围台风的形成和演变。在生命科学领域,传统的科学研究方法面临着生物类型实验数据少、计算任务复杂、交叉学科多等挑战。随着AI应用探索的不断推进,AI在药物筛选、药物设计、靶点研究、合成生物学、疾病机制研究等方面逐步取得稳步进展。
AI在带来解决科学问题新方法的同时,也给AI的基础软硬件带来了许多新的挑战。毕竟推动科学进步,开发一个人脸识别算法所需要的,并不是一种能力。
首先,深度学习平台需要具备更丰富的计算表达能力,比如高阶自动微分、复微分、高阶优化器等。其次,科学问题求解需要超大规模计算,这对深度学习平台与异构超级计算/智能计算中心的适配融合优化、神经网络编译器的加速和大规模分布式训练提出了新的要求;此外,如何实现人工智能与传统科学计算工具链的协同,也是有待解决的问题。
过去几年,百度飞桨团队在这些问题上取得了进展。作为国内首个自主研发、功能丰富、开源开放的工业级深度学习平台,飞桨开发了PaddleScience、PaddleHelix、Paddle Quantum等一系列面向科研的工具组件。,支持复杂形状障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域的实例。,并广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的研究探索和产业应用。
为满足科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术PGLBox,这是业内首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术。通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机可以支持百亿级节点和边的图采样和训练,通过多机扩展可以支持更大规模。目前已在百度智能交通和资讯中推荐。
在科研生态方面,百度飞桨在计算流体力学、分子动力学、动力气象学等方面进行了实例建设。与大学和科研机构合作,形成了一些开放的、跨学科的生态社区,包括飞桨特别兴趣小组、共创计划等。,与各方携手,共同开发技术,促进资源共享,构建生态商机。
瞄准AI for Science赛道是对百度飞桨AI能力的挑战,但技术突破也是飞桨提升能力的机会。对整个社会也有重大意义。百度飞桨的技术突破也让科学家有了更好的帮手,让技术突破有了更多的可能性。
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。