百度研究院(百度研究院副院长)

币安下载

Binance币安交易所

全球最大加密货币交易所,注册100%可领取100USDT奖励!通过本站注册不仅可以享受手续费折扣同时有机会获得币安周边

点击注册 更多线路

更多交易所入口

一站式注册各大交易所、点击进入加密世界、永不失联,币安Binance/欧易OKX/GATE.IO芝麻开门/Bitget/抹茶MEXC/火币Huobi

点击进入 永不失联


百度统计流量研究院的基本概况


                

百度统计流量研究院 ,于2012年3月宣布正式成立。该研究院目前可对外输出浏览器市场份额、操作系统市场份额、分辨率使用情况和网民地域分布四个报告。


...学习崛起,2020十大科技趋势预测,未来我们会与AI共处吗?


                

12月24日,百度研究院发布2020十大科技趋势预测,从2019年科技的蓬勃发展中提前展望2020。作为2019年度最受关注的科技热词之一,“AI”自然成为了焦点。百度研究院也对AI产业给出了几点关键预测。其中一点就是,AI技术已发展到可大规模生产的工业化阶段,2020年将出现多家“AI工厂”。


图:百度研究院预测2020年将出现多家AI工厂


百度研究院有此预测并不难理解,“AI工厂”的诞生在行业中早有端倪。人工智能独角兽企业旷视推出的自研人工智能算法平台Brain++,就已画出了AI工厂的雏形。


旷视首席科学家、旷视研究院院长孙剑博士曾这样介绍Brain++:正是“Brain++让规模化算法训练成为可能。”与此同时,通过Brain++,旷视“能够针对不同垂直领域的碎片化需求定制出丰富且不断增长的算法组合,包括很多长尾需求。此外,我们能以更少的人力和更短的时间开发出各种新算法。”


事实上,AI技术要实现大规模生产,首先要解决的就是如何低成本、大规模地产生算法。目前业界普遍把深度学习框架作为算法开发工具,但这又面临着学习和使用成本高,难以规模化的问题。究其原因,在于只有深度学习框架是不够的,需要打通从数据到算力再到框架的端到端解决方案,旷视Brain++恰好涵盖了深度学习算法开发的所有环节。


拆解Brain++的总体架构可以看到,其包含了深度学习框架MegEngine、深度学习云计算平台MegCompute、以及数据管理平台MegData三个核心组件。这恰好对应了AI发展中的三大要素:数据、算法以及算力。



图:旷视Brain++架构


从数据的获取、清洗、预处理、标注和存储开始,到研究人员设计算法架构、设计实验环节、搭建训练环境、训练、加速、调参、模型效果评估和产生模型,到最终的模型分发和部署应用,旷视Brain++让研发人员获得了从数据到算法产业化的一揽子技术能力。


除了大规模产生算法,旷视Brain++核心深度学习框架MegEngine还在不断提升算法的工程化开发能力。相比业内主流框架,其具有独特的训练和推理一体化能力,可实现一次算法训练直接部署模型。


基于深度学习框架,不仅人工智能技术的开发门槛被大大降低,而且还有效提高了人工智能应用的质量和效率。据《全球深度学习系统市场报告》显示,到2020年,全球深度学习系统市场规模将超13亿美元。百度研究院也在预测中指出,2020年,各行各业将会大规模应用深度学习技术实施创新,加快转型和升级。



图:深度学习技术将大规模深入产业


不过,深度学习框架的搭建还离不开自动机器学习AutoML技术的发展。长期以来,业内都有一个调侃叫做所谓人工智能,有多少智能就有多少人工。但是通过AutoML技术,则可以让机器自动进行端到端的优化,从而大幅减少人力的成本投入。旷视Brain++核心深度学习框架MegEngine就集成了旷视自研的AutoML技术,对深度学习算法的各个关键环节进行自动化的设计、搜索和优化,一次训练完成自动化过程,将计算代价减小至传统AutoML方法的万分之一,进一步推进技术的成熟。


百度研究院也在预测中指出,AutoML的快速发展将大大降低机器学习的门槛,扩大AI应用普及率。这对于早已将AutoML运用到机器学习中的旷视而言,其已走到了行业前列。更值得一提的是,AutoML领域的研究一直都被国外谷歌AutoML Vision、微软Microsoft Custom Vision、亚马逊Amazon SageMaker等企业以及平台“垄断”,旷视等企业在这一领域的探索,将有效打破国外企业的垄断格局,构建起中国AI产业核心竞争力。



图:百度研究院预测AutoML 的快速发展将大大降低机器学习的门槛


基于Brain++,旷视“AI工厂”初现。依托Brain++,旷视实现了云、端、芯的深度神经网络算法全面覆盖,并推出了多种高效的以人工智能驱动的物联网解决方案,并成功为个人物联网、城市物联网、供应链物联网等垂直领域的客户赋能,助力创造更多价值。


据IDC统计,2019年全球人工智能市场规模达到375亿美元,中国人工智能市场预计占全球的12%,成为了全球第二大人工智能单一市场,且市场规模保持高速增长。人工智能产业迭代的力量即将喷涌而出,但就像第一次工业革命的纺织工厂,第二次工业革命的汽车工厂,AI革命也需要打造一个智能时代的“AI工厂”,以应对即将来临的AI大生产时代的需求。这不仅是AI企业发展的必经之路,更是直接决定着整个国家的产业在这个新时代节点之中参与全球竞争的底气。以旷视Brain++为代表,它们作为中国AI企业极少数的自主可控的算法框架,无疑将在中国AI产业发展中留下浓墨重彩的一笔


百度软件研究院是做什么的


                
参考答案:Instant Message (IM):即“即时通信”,例如MSN、QQ、Skype等,可以包括文字、语音、视频等各种方式。许多图书馆很早就在使用IM进行虚拟参考服务,2.0时代需要更好地整合各类相关服务和数据,为网上参考工作提供更为方便的平台。

有的企业还要设立研究院,真的有意义吗?


                

有的企业还要设立研究院,真的有意义吗?一方面是因为大公司实力雄厚,资源丰富,更重要的是,大公司的战略方向比中小型企业要清晰得多,在研发和创新方面,百度研究院作为公司的大脑,是百度旗下专注于先锋人工智能基础研究的高水平科研团队,定义了百度人工智能未来的发展方向,探索了技术先锋的方向。百度研究院拥有大型数据实验室(BDL)、商业智能实验室(bil)、认知计算机实验室(CCL),一个综合学习实验室(IDL)和一个量子计算研究所(IQC)。如今,研究机构将成为常见的NAS大公司,如互联网行业的batj;华为和海尔在制造业;房地产行业中的恒大和田园。







以华为2012实验室为例,在未来投入巨资。华为2012实验室的主要研究方向包括新一代通信技术、云计算、人工智能、数据挖掘、机器学习、,主要关注未来五到十年的发展方向。根据华为2018年的官方数据,华为的研发投资为1015亿元,占其2015年销售收入的14.1%。





因此,企业研究院也是创新主体,虽然公司的大部分利润不一定来自企业研究院的成果,但未来的前瞻性研究可能是公司的支持。任正非表示,华为至少有700名数学家和800多个对象。智能时代需要经历几个步骤:首先是计算机化,然后是大数据,最后是智能化。联想总裁兼首席执行官杨元庆表示:智能生产所实现的质量和效率的提高正在释放巨大的效率红利。


这一切背后的驱动力是数据驱动的智能、计算能力和算法。在这方面,2019年12月,首席执行官达佳刘茂奇在智慧世界管理论坛上分享了佳如何运用创新导向的产品开发战略寻找新的增长点。作为一家典型的工业公司,佳使用创新导向的产品开发战略寻找新的增长点。杭嘉非常重视智能化现代化。刘茂奇说:“要增强核心竞争力,智能生产是关键。


百度研究院:都知道数据越多越好,增加具体数据量能带来多大提升呢?


                
【嵌牛导读】在深度学习界,「数据越多,模型表现就越好」是大家公认的规律,不过很多时候我们都不太清楚具体的「增加多少数据,能带来多大提升」。
  
【嵌牛鼻子】数据量、深度学习、提升
  
【嵌牛提问】增加具体数据量能带来多大提升?
  
【嵌牛正文】前几个月谷歌的一项大规模实验就有力地(甚至令人害怕地)证明了即便数据已经很多的情况下仍然「数据越多越好」,这次百度研究院的大规模研究就定量地分析了「增加的数据能带来多大提升」,得到的结果还可以用于预测面向实际问题的模型的表现,可以说是非常实在了。
  
雷锋网 AI 科技评论把百度研究院的这篇成果介绍文章编译如下。
  
这是一个数字世界和其中的数据以前所未有的速度增加的时代,增加速度甚至超过了计算能力的增加速度。在深度学习的帮助下,我们可以快速地从海量的数据中获取有价值的信息,并且带给我们带有人工智能的产品和使用体验。
  
为了能够持续地提升用户体验,深度学习科学家和开发人员们就要着眼于现有的以及不断新出现的应用场景,快速地改进深度学习模型。研究新的模型架构当然能带来重大改进,但这方面的研究往往需要的是灵感闪现;大的突破常常需要为建模问题建立复杂的新框架,测试它的效果也还要再花几周到几个月的时间。
  
如果除了研究新的模型结构之外,我们还能有更可靠的方法提升模型的准确率就好了。
  
我们能提前知道更多数据会带来多大的提升吗?
  
百度研究院近日发布的一项大规模研究报告就表明,随着训练数据的增多,深度学习模型的准确率也有可预期的提高。通过实际实验,百度研究院的研究员们发现,只要有足够的训练数据和计算资源,那么训练大模型时随着规模提升带来的准确率提升就是可以预期的。在百度研究院研究的机器翻译、语言建模、图像分类、语音识别四个应用领域中,在众多的顶尖模型上都能看到这样的结果。
  
更具体地来说,百度研究院的研究结果表明,对于他们用来衡量模型在新样本上的表现的「泛化误差」指标,错误率的指数基本随着训练数据的指数线性下降。之前有一些理论研究也同样得到了这样的对数下降关系。然而,那些成果预测出的学习曲线都很「陡峭」,就是说幂公式的指数是-0.5,这意味着深度学习模型应当能学习得很快。百度研究院从大量实验中采集的学习曲线表明这个指数应当在 [-035,-0.07] 这个范围内,就是说真实世界的模型从真实世界的数据中学习的速度要比理论预测得要慢得多。
  
语言建模模型上的实验结果就展现出,随着训练数据的增加,错误率的指数基本随着训练数据的指数线性下降(注意横轴纵轴都是对数坐标)
  
对于语言建模任务,百度研究院在 Billion Word 数据集的子集上测试了 LSTM 和 RHN 模型。上方的图中显示的就是不同数据量下每个架构模型的最佳验证误差(作为泛化误差的近似)。图中几条曲线都可以根据指数关系进行预测,甚至连幂公式中的指数都惊人地一致。对于很大的训练数据集,模型的表现会稍微偏离曲线一点,但是百度研究院的研究人员们同时发现如果优化超参数就往往可以让模型表现回到曲线上来。
  
「有尽头」、「可预测」的学习
  
模型预测误差的改进从「最可能的猜测」开始,沿着指数关系下降,最终来到「无法消除的误差」。
  
更广泛地说,百度研究院实际实验得到的结果表明,学习曲线基本会是这样的形式的:
  
实际应用中成指数关系的学习曲线(横轴纵轴仍然都是对数坐标)
  
从这张示意图中可以看到,与训练数据数量的指数成线性关系的这一段把学习曲线分成了不同阶段。
  
一开始是小数据阶段,模型只有很少的训练数据;在这个阶段,模型的表现就和瞎猜差不多,只是看猜得稍微有点谱还是完全瞎猜。学习曲线上中间的这部分就是符合刚才说到的指数关系的一部分,这里每一张新增加的训练样本都能给模型提供有用的信息,提高模型分辨从未见过的样本的能力。幂公式中的指数就决定了这一阶段的线条的斜率(对数-对数坐标下)。从这个指数上也可以看到理解训练数据的难度。
  
最后,对于大多数的真实世界应用来说,最终都会有一个不为零的错误率下限,模型表现只能无限接近这个下限,无法进一步降低错误率(百度研究院的实验中,用于解决真实问题的模型还尚未接近这个下限,不过简单问题上的实验中已经清洗显示出了这个下限)。这种无法消除的错误率就来自真实世界数据中种种因素的组合。
  
综合了所有模型的测试结果,百度研究院得到的结论是:
  
指数关系的学习率曲线在所有的用途、所有的模型架构、所有的优化器、所有的损失函数中都会出现;
  
非常惊人的是,对于同一种模型用途,不同的模型架构和优化器却表现出了同样的指数关系。这里,随着训练数据集增大,不同的模型的学习率有着相同的相对增长率。
  
对于不同数量的训练数据,最适合的模型大小(以参数数目衡量)是随着数据的数目次线性增加的。其中的关系同样可以通过实验描述,然后用于未来的预测。
  
百度研究院希望这些研究成果可以在深度学习大家庭中引发更多的讨论,让大家更多地思考有哪些可以帮助深度学习快速提高的方法。
  
对于深度学习研究者来说,学习率也可以帮助 debug 模型,并且预测改进模型结构之后的准确率目标。学习曲线中的指数也还有很大空间做进一步的理论预测或者解释。另外,可预测的学习曲线也可以帮助决定要不要增多训练数据、如何设计和拓展计算系统,这实际上都体现了不断提升计算规模的重要性。

目录[+]