现场报道硅谷最干货大会之一AIFront - 口腔疾病

TUhjnbcbe - 2023/7/9 21:36:00

白癜风早期治疗几率 https://m-mip.39.net/pf/mip_6149968.html

机器之心原创

记者：彭君韬（Tony）

参与：AlexChen

除了吴恩达近况和麦肯锡的预测，你还可以从文章里找到当下最火的深度学习应用案例！

美国时间周五，位于硅谷的圣克拉拉会议中心，人头攒动，来自17个国家的多人参加了硅谷人工智能前沿大会AIFrontiers。这些人有着共同的兴趣：AI。

这是AIFrontiers今年的第二场大会，为期三天。前百度首席人工智能科学家、Coursera和deeplearing.ai的创始人吴恩达，以及来自Google、Amazon、Facebook、Nvidia、Uber、EA、麦肯锡、阿里巴巴的代表，分享了语音助手、机器人、无人车、视频理解和游戏等领域在今年的最新趋势。

机器之心从大会现场带来核心内容：

吴恩达：发展AI就积极创业！

吴恩达的演讲，满是他在斯坦福大学当教授教课的样子：衬衫西裤，黑笔白板，无需演讲稿和ppt，直接写出要点，开始演讲。

离职的这半年，吴恩达动作频频——创建Deeplearning.ai；在Coursera推出基于深度学习的5项课程；加入他的学生AlisonDarcy所创立的AI公司Woebot成为董事会主席；他妻子CarolReiley所在的无人车公司Drive.ai也在今年完成万美元的融资，并和Lyft达成战略合作。

「AI就是新的电力」，这句话成为了吴恩达的座右铭，他也以此做题，畅谈了AI对工业界带来的影响。

除了在AI的三大领域——语音识别、自然语言处理、计算机视觉做点到为止的讲解外，吴恩达提到现在科技公司的工作流程因为AI发生了巨大的变化。

「过去，互联网公司的项目经理会给工程师一个用户界面；现在，任何一个工程师拿着一张画着用户界面的草图都做不出一个聊天机器人出来，」吴恩达说。

另一个非常重要的问题是，传统科技公司+神经网络并不等于AI公司。要想实现AI在公司各层次业务上的普及，必须加入新的工作流程——你需要获取全新的战略性数据，统一化的数据分析，为有AI技能的工程师增加新的工作职位，比如说CAO（ChiefAIOfficer）。

美国科技媒体ZD.net近日发表的一篇文章里谈论了工业界需要一个全新的首席职位，首席AI官或许会成为趋势。「是时候雇佣一个首席AI官了，」吴恩达在自己的推特中说道。

面对业内如今AI人才严重欠缺的情形，吴恩达也自然而然地为Deeplearning.ai站台，「学习AI基础的第一步是求助于MOOC（大型开放式网络课程），然后做各种各样的项目，最后找到一份工作。」

就在近日，有消息人士透露，Deeplearning.ai推出一个为期30天的深度学习训练营，招募编程能力强、有一定机器学习基础的人，培养他们成为能够处理深度学习任务的工程师。不过，还不清楚Deeplearning.ai如何在这么短的时间内训练出AI人才。

演讲的最后，吴恩达呼吁，「我们有足够的论文了！不要再发表了，准备用科技来改变人们的生活吧！」对急于向全社会推广AI的吴恩达来说，处于金字塔顶端的论文研究很难将AI深入到每个人的生活，人才只有加入工业界或者创业才能带来更多的变化。

投资的热区在哪里

这是麦肯锡的JamesManyika第二次参加AIFrontiers。这位美国前总统奥巴马的全球发展委员会委员、麦肯锡全球研究所的联合主管，专注于研究AI对工业界的影响。大会第一天，Manyika从四个角度剖析了如今AI对工业界的影响。

投资的热区在哪里？从年至年，科技公司对于AI企业的投资和收购金额高达亿—亿美元；风投在AI企业身上投入了60亿美元至90亿美元的金额，增长率是%，仅此于电动车。中美依旧是投资的主力，美国承包了—亿美元，亚洲地区则达到了80亿—亿美元。

然而，并非所有公司都会采用AI技术。依然有30%的企业不清楚在商业案例上使用AI的意义；41%的企业不清楚AI的投资回报率；28%的企业没有组建AI技术团队的能力。

什么样的公司热衷AI？科技公司、通讯公司以及金融公司是拥抱AI技术的主力；建筑、旅游、教育以及医疗健康领域行业对AI技术的态度则相对保守。

早期使用AI的公司有这几个普遍的特点：数字化程度很高；企业规模较大；在关键的商业应用上运用AI；更注重业务的增长和创新，而不是一味地减少成本；创立和AI相关的C-level职位。

AI如何提升企业的表现？AI对工业界的平均影响比例是10%，对拥有大量实物工厂和设备资产的行业来说影响更大。

企业如何在应用AI？Manyika建议企业发展五个方面：AI对案例的核心价值；一个数据生态；AI相关的技术和工具；工作流程的整合；以及开放的组织结构。

下面，就是机器之能通过大会现场讲解总结的5大应用趋势。

年，属于智能音箱

如果说年，智能音箱市场只有Amazon和Google两大玩家，那么到了年，自称是科技公司的都会在智能音箱上比划两下——Amazon和Google分别推出智能音箱的第二代Echo2和GoogleHomeMiniMax；

基于Siri的HomePod在9月的苹果发布会上亮相；微软的Cortana被包裹进了最新的智能音箱HumanKardonInvoke；阿里巴巴则推出了天猫精灵X1，内置智能语音助手AliGenie。

AmazonAlexa的主管RuhiSarikaya道出了科技公司哄抢智能音箱市场的原因：

谈话中包含的信息肯定比打字来的多，普通人讲话的速度比打字的速度快上4倍。这让语音成为了操作平台上新的输入媒介——IOS有Siri，Windows10有Cortanan，Google的搜索应用里有GoogleNow。

据Gartner预计，到了明年，将有30%的人机交互都会通过语音实现。

同时，智能音箱也要多亏深度学习在语音识别上的重大突破。如果语音识别的准确率低于90%，机器是听不懂人话的。据微软的首席语音科学家*学东介绍说，如今微软已经将错误率降到了5.1%。

Sarikaya介绍说，Alexa的目标是通过机器学习和AI，为用户提供最合适的应用，将不必要的任务，比如付账单，记事簿都交给机器来自动化，并且按需的服务，比如叫出租车、放音乐、寻找班车列表等等。

未来，Alexa的回答也将更加智能，除了回答以外，还要主动地为用户提供服务。

自然语言交互的挑战是用户要求的不明确，比如用户问，「我晚饭应该吃什么」，这对Alexa不是一个明确的要求，也就需要Alexa自己选择调配什么样领域的知识和技能来回应这个问题。

Google的研究科学家DilekHakkani-Tur主要分享了Google在端到端对话系统上的研究。

作为人机交互过程中的一个重要环节，对话系统需要将用户的要求翻译成带有标签的对话行为（dialogueact），比如用户是疑问句还是陈述句？语句有关什么内容？然后根据对话策略（dialoguepolicy），对话系统要选择一个答案。这当然需要大量的数据进行训练。

在训练过程中，Google的研究团队也针对不同问题进行不同的学习模式：

「比如在对话级别的规划上使用了端到端的强化学习；在泛化到其他语言或者含义上，则使用迁移学习；训练谈话语言理解时，Google采用E2EMemNN（端到端记忆网络）；

在训练对话策略的过程中则采用分阶段训练，先用人家专家的知识训练模型，再用强化学习在模拟用户和奖励机制任务的环境里学习，最后用交互式强化学习将前两者合并。

Hakkani-Tur还提到了自然语言生成，用户模拟器和机器之间的交互。

「智能助手的挑战还有很多，比如语义不详的语言，定制化，更加自然生动的对话，多领域任务，以及跨越领域的交互，都是我们需要解决的问题，」Hakkani-Tur说。

苹果Siri的高级主管AlexAcero介绍了苹果是如何将深度学习应用到Siri上，包括唤醒词的识别、大量词汇识别、语音合成、机器翻译和自然语言处理。

Acero着重介绍了衔接语音合成技术，这是一种通过衔接短声音样本的方式输出文本-合成-声音；以及用深度神经网络识别唤醒词并触发Siri，以及用大量GPU和深度神经网络训练iWatch上的唤醒词HeySiri。

机器人和计算机视觉

今年的AIFrontiers机器人单元迎来了两家初创公司——致力于高等智能机器人的Vicarious，和致力于打造可爱家用机器人MayfieldRobotics。

Vicarious在上周刚刚发表了关于攻破CAPTCHA（验证码）的论文，也因此频频出现在媒体头条。

机器之心近日与Vicarious的CTODileepGeorge进行了深度专访，发现Vicarious并没有采用时下主流的机器学习算法——以卷积神经网络为代表的深度学习算法，而是采用了区别于判别模型的概率生成模型，结合对脑科学的研究。

George也受到AIFrontiers的邀请，讨论了Vicarious的最新研究——递归皮质网络（RecursiveCorticalNetwork）是如何攻破CATPCHA，以及如何应用在机器人的操纵上，包括物体识别能力，以及在物体重叠的情况下也能很好地分辨物体。

Vicarious已经和众多的机器人厂商、包括ABBGroup进行合作。在其位于旧金山东湾UnionCity的三个办公地点，Vicarious都购置了不同种类的机器人进行了实验。据Vicarious的商业总结楼兴华透露，该公司的机器人技术将会最早应用到工业领域的柔性制造中。

MayfieldRobotics介绍了一款叫做Kuri的机器人——外表像极了大白（超能陆战队），装载着麦克风、摄像头、手势装置、扬声器、定位装置、驾驶系统（可以到处移动）和核心处理器GPU。

和Vicarious一样，MayfieldRobotics也在计算机视觉上发力，算法上，MayfieldRobotics使用了Google最新提出的MobileNets——一种基于卷积神经网络的嵌入式算法，用来进行人脸检测，宠物检测、人脸识别以及地点识别（用于绘图和定位）。

这样的算法对于实现Kuri与用户（小孩子）的互动，以及Kuri成为家庭录像和娱乐的能力至关重要。

视频理解成为计算机视觉的新大陆

今年，Google、Facebook等科技巨头都发布了大型视频数据集或数据平台，这也意味着对视频理解的算法研究也在大规模地开放。

谷歌研究视频搜索功能、Youtube和视频移动app的Google拥有很多基于图像和视频的应用，比如视频搜索、云视频API、安卓相机、视频图书馆内容整理、手写识别、光学字符识别、以及Allo里个性化表情包、Youtube的缩略图的预览优化、无声视频的字幕生成等等。

RahulSukthankar是谷歌的高级工程师，他讲解了如何通过深度学习在大规模视频数据库实现多种目标，比如Youtube大型视频集注解、Youtube视频缩略优化。

五年前，在输入和输出中间需要多个步骤，包括手动设计的描述符和码本直方图；如今，有了深度学习后，只要把数据扔进模型里就可以得到视频的字面描述，而且效果更好。

Google在年写了一篇用深度神经网络训练Youtube的缩略图优化的博客，将网络上的视频缩略图（输入）和点击量（结果）做一个链接。

撇开这些过去的研究，Sukthankar提到了视频数据集在未来的研究方向——自我监督模仿（self-supervisedimitation）。Google介绍了时间对比网络（time-contrastivenetworks），让机器能够学习视频里的动作，学会一些基本的操控和控制，比如倒水，或者站立。

Sukthankar在最后分析了不同视频数据集的特色，比如：Sports-1M和Youtube-8M适用于视频注解；HUMOS，Kinetics和Google刚刚开源不久的AVA适用于训练视频里的动作识别；Youtube-BB和OpenImages适用于物体识别。

随后出场的Facebook计算机视觉主管ManoharPaluri介绍了今年新开放的图像数据平台Lumos。

基于FBLearnerFlow的Lumos是一个面向图像和视频理解的平台。Facebook工程师不需要接受深度学习或计算机视觉方面的培训，就可以使用Lumos培训和部署新模型。

Paluri也在大会上公布了令人兴奋的消息：明年年初，Facebook将公布两个新的数据集——SOA（Scenes，ObjectsActions）和Genericmotionsdataset。

今年加盟阿里巴巴iDST的任小枫也受邀参加AIFrontiers，分享了阿里巴巴在视频理解中的需求，以及iDST正在解决的挑战，例如淘宝上的移动购物、优酷和土豆上的视频搜索和推荐、以及菜鸟物流和智慧城市的实时系统。

任小枫主要介绍了视频理解如何应用到阿里巴巴的具体业务，比如优酷视频中的物品识别可以直接和淘宝网的购物链接相连；以及最近淘宝推出了商品视频介绍，卖家可以拍摄有关商品的视频，淘宝会分析视频的内容，用于优化商品搜索。

自动驾驶「加速度」，两个月让无人车上路

在所有的AI初创公司里，自动驾驶公司无疑最惹人瞩目，而且，无人驾驶的研发正在提速。

今年四月才刚刚创立的景驰科技，仅用一个多月的时间就完成了首次封闭场地的无人驾驶测试；两个半月后，景驰科技获得了加州无人驾驶车辆测试许可证；公司成立81天后，景驰科技的无人车完成了在开放路面上的无人驾驶测试。

景驰科技的CTO、前百度无人车首席科学家韩旭参加了此次大会。韩旭开场提到了汽车行业的三个未来趋势：

电动车让传统引擎和排放变得不再重要；汽车的销售会从B2C转变为B2B；汽车未来的核心驱动力是AI，软件会变得和硬件一样重要。

「谁能最先融合科技、共享经济和OEM，谁最先赢得市场，」韩旭说。

韩旭对未来自动驾驶的普及有着清楚的预计：年，无人车公司都能上路测试；年，中等城市会赢来第一批无人车；年，无人车在大型城市普及；年，北京、上海、纽约等体量的国际之都将迎来无人车：年之后，个人或许能购买一辆属于自己的无人车。

值得一提的是，在自动驾驶的单元里，韩旭遇到了他的金主——Nividia自动驾驶的高级主管DannyShapiro。今年9月，景驰科技宣布了Pre-A轮5万美元融资，Nividia也参与了这一笔投资。所以，韩旭也在演讲之后的座谈会环节向Shapiro连连致谢。

Nividia在自动驾驶的决心也不小，*仁勋在今年北京的NividiaGTC大会上就高调表示，Nividia要在年实现L5的全自动驾驶。

专注于硬件和芯片的Nividia也在今年5月推出了有关无人驾驶的硬件解决方案（包括计算平台DrivePX,操作系统DriveOS,车内交互智能开发工具DriveIXSDK,以及DriveAV)。

另一位演讲嘉宾、Uber的高级工程经理JeffSchneider则扮演了一回大学教师，将自动驾驶的历史和基本元素——绘图（mapping）,定位（localization）,感知（perception）,预测（prediction）,路径规划（motionplanning）,控制（control）解释了一遍。

游戏AI：强化学习的暖床

大会第一天最后，FacebookAI研究所田渊栋和ElectronicArts的技术总监MagnusNordin讨论了关于AI在游戏中的应用。

田渊栋（左），MagnusNordin（中）

田渊栋曾是Facebook围棋机器DarkForest的开发者，使用深度学习和蒙特卡洛数搜索将DarkForest提升至业余五段的水平。

之后，田渊栋就一直研究强化学习在游戏AI中的作用。他去年的一篇论文提出了一个新的框架，通过结合强化学习和课程学习，培训第一人称射击游戏（FPS）的机器人。

田渊栋还带着他的实习生在年ViZDoomAI大赛中成功获得了Track1冠*，比第二名高出35％。

田渊栋也介绍了其他的项目，包括去年提出的ELF框架（Extensive,lightweight,andflexible）。任何基于C++界面的游戏都可以通过这个框架进行训练，同时不需要大量的计算能力和训练时间。

田渊栋另外一篇研究机器人探索3D环境的论文也被ICLR收录。论文基于SUNCG的数据集，同时也采用多模态学习。

随后，EA的Nordin介绍了EA近日的新动作——Seed（SearchforExtraordinaryExperiencesDivision），这是EA单独成立的一个研发部门，为了探索游戏中的一些全新体验，包括AI。

据Nordin的介绍，EA也在使用强化学习训练游戏机器人，基于奖罚机制来提高游戏水平。在一个躲避球的游戏里（吃掉绿色球得一分，碰到红色球扣五分），游戏机器人会通过强化学习不断提高自己的分数。

这样的训练方式还有不着不错的泛化能力，包括躲避球、射击游戏、赛车游戏都取得了不错的效果。

对EA而言，AI不只是用来训练机器人的游戏水平。在EA的几款经典游戏系列《模拟人生》《战地》《FIFA》中，游戏场景生成就可以通过AI加速生成，即使是用户在平板上画上几笔，AI也能学习如何生成例如山脉这样复杂的自然环境。

「未来五年里，游戏的变化会比之前45年的变化都要多，」Nordin说。

另一方面，从AIFrontiers大会所讨论的内容不难看出，快速推进的产业应用得益于——深度学习的研究进展推进了语音识别、图像分类、自然语言处理等技术的惊人变化。然而，泛化能力的不足也一直备受行业诟病。

Google高级科学家LukaszKaiser在会上介绍了DepthwiseSeparableConvolutions，这个模型能够在多个领域进行训练，包括ImageNet、翻译、图像字幕、语音识别语料库，以及英语的语法分析。同时，它还能够提高生成文字和图像的能力。

DSC起源于Google大牛、Keras的开发者FranoisChollet的论文《Xception:DeepLearningwithDepthwiseSeparableConvolutions》。从结果上看，Xception在各个领域都取得了很好的效果。

另外，值得注意的是，Kaiser在今年6月发表了一篇论文，将DSC应用到了神经机器翻译上。

机器之心将继续跟踪大会更多重要内容。

本文为机器之心原创，转载请联系本