2022-10-23 51
据推测,到2025年,针对ImageNet数据集的最优化的人脸识别系统,错误率应该减少到5%。
但,体能训练这种一个深度自学系统将带来相当于曼哈顿一个月的二氧化碳排放。
2016年,“Delta狗(AlphaGo)”与柯洁的中国围棋较量,让育苗智能和深度自学进入了大众的视线。在那次人工智慧大战中,Delta狗以总成绩4比1获得胜利。不仅中国围棋,深度自学近些年来十分迅速发展,在语言、医疗等数个领域展现出了强大的潜能。然而这一切是有代价的,为的是减少错误率,深度自学在完成任务时需要越来越大的排序量,由此产生的经济成本、花费的用电量、对环境的污染,将超出人类文明社会的承受潜能。育苗智能普及化的那六天,或许也将是人类文明能源被排序机消耗大半的那六天?
当下锋头纽韦尔角的深度自学领域,源于电子元件排序机的时代。1958年,普林斯顿大学的理查德·罗森布拉特受脑神经元的启迪,设计了第一个育苗数学数学模型,后被命名为“深度自学”。罗森布拉特知道,这项技术超越了当时的排序潜能,他心痛地表示:“随着数学数学模型相连节点的增加……传统的数字排序机很快就会无法承担排序量的损耗。”
幸运地的是,排序机硬件在几十年间快速升级,使排序速度提高了大约1000五倍。因此,21世纪的科学研究相关人员得以实现具有更多相连的数学数学模型,用来演示更繁杂的现象。现如今深度自学已经广为普及化,被应用于下中国围棋、翻译、预测蛋白质卷曲、分析眼科等数个领域。
深度自学的崛起乘胜追击,但它的未来很可能是曲折的。罗森布拉特所担忧的排序量的限制,仍然是弥漫在深度自学领域之上的一片阴霾。现如今,深度自学领域的科学研究相关人员正在逼近排序工具的无限大。
深度自学的工作原理深度自学是育苗智能领域长期发展的成果。早期的育苗智能系统基于逻辑和人类文明科学研究者取值的规则,后渐渐引入了能透过自学来调节的模块。由此可见,数学数学模型能透过自学,构筑可塑性很强的排序机数学模型。数学数学模型的输出不再是单一公式的结果,而是选用了极其繁杂的演算。足够多大的数学数学模型数学模型能适应任何类型的数据。
为的是理解“科学研究者系统(expertsystem approach)”和“灵巧系统(flexible-system approach)”的区别,他们考虑这种一个情景:透过XA45EI321VD推论病人是否罹患肺癌。他们假设XA45EI321VD中有100个特征(表达式),但他们不知道什么样特征是重要的。
科学研究者系统解决问题的方法,是让王丽强和神经外科领域的科学研究者指定重要的表达式,并允许系统只检查和这些表达式。这一方法需要的排序量小,因此曾被广为选用。但如果科学研究者没能指出关键的表达式,系统的自学潜能就不如纵使。
而灵巧系统解决问题的方法,是检查和尽可能多的表达式,并由系统自行推论什么样重要。这需要更多的数据和更高的排序成本,相比科学研究者系统效率更低。但,只要有足够多的数据和排序量,灵巧系统能比科学研究者系统表现更佳。
深度自学数学模型是过模块化的(overparameterized),即模块比可供体能训练的数据点多。比如人脸识别系统Noisy Student的数学数学模型拥有4.8亿个模块,但它在体能训练时只使用了120万个标记的图像。过模块化通常会导致过拟合(overfitting),也就是数学模型与体能训练的数据集拟合度过高,以至于没有把握一般趋势,却自学了体能训练集的特殊性。深度自学透过随机初始化模块、“随机梯度下降(stochastic gradient descent)”等方法,反复调整模块集,以避免过拟合的问题。
深度自学已经在机器翻译领域大显身手。早期,翻译软件根据语法科学研究者制定的规则进行翻译。在翻译乌尔都语、阿拉伯语、马来语等语言时,基于规则的方法起先优于基于统计学的深度自学方法。但随着文本数据的增加,深度自学全面超越了其他方法。事实证明,深度自学在几乎所有应用领域都具有优越性。
巨大的排序成本一个适用于所有统计学数学模型的规则是:要想使性能提高k 倍,至少需要k2 倍的数据来体能训练数学模型。又因为深度自学数学模型的过模块化,使性能提高k倍将需要至少k4 倍的排序量。指数中的“4”意味着,增加1 五倍排序量最多能带来10 倍的改进。
显然,为的是提高深度自学数学模型的性能,科学家需要构筑更会变得多昂贵呢?是否会高到他们无法负担,并因此阻碍该领域的发展?
为的是探究这一问题,麻省理工学院的科学深度自学正面临严峻的挑战。“如果不能在不增加排序负担的前提下提高性能,排序量的限制就会使深度自学领域停滞不前。”
以图像分类为例。减少图像分类错误伴随着巨大的排序负担。例如,2012 年AlexNet 数学模型首次展示了在图形处理器(GPU)上体能训练深度自学系统的潜能,该数学模型使用两个GPU 进行了5~6 天的体能训练。到2018 年, 另一个数学模型NASNet-A 的错误率减少到了AlexNet 的一半,但它使用的排序量是AlexNet 的1000 多倍。
芯片性能的提升是否跟上了深度自学的发展?回答是:并没有。在NASNet-A 增加的1000 多倍的排序量中,只有6 倍的提升来自于更好的硬件,其余都是透过使用更多的处理器或运行更长时间达到的,伴随着更高的成本。
理论告诉他们,提高k 倍的性能需要增加k4 倍的排序量,但在实践中,增加的排序量至少是k4 倍。这意味着,要想将错误率减半,需要500 倍以上的排序资源,成本高昂。不过,实际情况与理论预测的差距,也意味着可能存在改进算法的空间,有机会提高深度自学的效率。
根据科学研究相关人员估计的人脸识别领域“排序成本—性能”曲线,将错误率降到5%,需要进行1028次浮点演算。另一项来自马萨诸塞大学阿默斯特分校的科学研究显示了排序负担隐含的巨大经济和环境成本:体能训练一个错误率小于5%的人脸识别数学模型,将花费1000亿美元,其消耗的电能产生碳排放与曼哈顿一个月的碳排放量相当。而想要体能训练错误率小于1%的人脸识别数学模型,成本就更是天价。
排序成本的重负在深度自学的前沿已经变得显而易见。机器自学智库OpenAI斥资400多万美元,设计并体能训练了深度学习语言系统GPT-3。尽管科学研究相关人员在操作中犯了一个错误,但他们并没有修复它,仅仅在论文附录中简要解释道:“由于高昂的体能训练的成本,对数学模型重新体能训练是不现实的。”
企业也开始回避深度自学的排序成本。欧洲的一家大型连锁超市最近放弃了一项基于深度自学预测什么样产品将被购买的系统。该公司的高管推论,体能训练和运行该系统的成本过高。
深度自学路在何方面对不断上升的经济和环境成本,深度自学领域迫切地需要在排序量可控的前提下,提高性能的方法。科学研究相关人员为此进行了大量科学研究。
一种策略是,使用为深度自学专门设计的处理器。在过去十年中,CPU让位给了GPU、现场可编程门阵 列(field-programmable gate arrays)和应用于特定程序的集成电路(application-specific ICs)。这些方法提高了专业化的效率,但牺牲了通用性,面临收益递减。长远看来,他们可能需要全新的硬件框架。
另一种减少排序负担的策略是,使用更小的数学数学模型。这种策略减少了每次的使用成本,但通常会增加体能训练成本。二者如何权衡取决于具体情况。比如广为应用的数学模型应当优先考虑巨大的使用成本,而需要不断体能训练的数学模型应当优先考虑体能训练成本。
元自学(meta-learning)有望减少深度自学体能训练成本。其理念是,让一个系统的自学成果应用于数个领域。例如,与其分别建立识别狗、猫和汽车的系统,不如体能训练一个识别系统并多次使用。但科学研究发现,一旦原始数据与实际应用情景有微小的差异,元自学系统的性能就会严重减少。因此,全面的元自学系统可能需要巨大的数据量支撑。
一些尚未发现或被低估的机器自学类型也可能减少排序量。比如基于科学研究者见解的机器自学系统更为高效,但如果科学研究者不能辨别所有的影响因素,这种的系统就无法与深度自学系统相媲美。仍在发展的神经符号(Neurosymbolic methods)等技术,有望将人类文明科学研究者的知识和数学数学模型的推理潜能更好地结合。
正如罗森布拉特在数学数学模型诞生之初所感受到的困局,今天的深度自学科学研究者也开始面临排序工具的限制。在经济和环境的双重压力下,如果他们不能改变深度自学的方式,就必须面对这个领域进展缓慢的未来。他们期待一场算法或硬件的突破,让灵巧而强大的深度自学数学模型能继续发展,并为他们所用。原文链接:https://zazhiba.com.cn/post/3955.html
=========================================
https://zazhiba.com.cn/ 为 “自由随风” 唯一官方服务平台,请勿相信其他任何渠道。
百科资讯 2022-10-27
百科资讯 2022-10-26
百科资讯 2022-11-07
百科资讯 2022-10-22
自媒体运营 2022-11-19
百科资讯 2022-10-19
百科资讯 2022-12-02
百科资讯 2022-10-21
百科资讯 2022-10-26
百科资讯 2022-10-26
李靖国 2023年12月23日
小游客 2023年03月31日
访客 2023年02月06日
扫码二维码
获取最新动态