来源:本文由半导体行业观察翻译自 semiengineering ,谢谢。
环球影业正在以神和怪物构建一个充满危险与刺激的“黑暗宇宙”,为我们揭示了另一个不一样的黑暗的地球。虽然这样的世界并不一定存在,但是不可否认的是,世界总存在着不为人知的一面。虽然我们总是会基于某些目的去忽视这些危险。
对于很多不断出现的新技术来说也是如此,机器学习就是一个很好的例子。
机器学习,可以用于许多目的。但并不是所有目的都是好的或者是有益的。不同的人用同一种技术也可能出现好的或者坏的结果,这取决于使用者的意图。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。
第一阶段是在20世纪50年代中叶到60年代中叶,属于热烈时期。
第二阶段是在20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。
第三阶段是从20世纪70年代中叶至80年代中叶,称为复兴时期。
机器学习的最新阶段始于1986年。
机器学习进入新阶段的重要表现在下列诸方面:
(1) 机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。
(2) 结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。特别是连接学习符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视。
(3) 机器学习与人工智能各种基础问题的统一性观点正在形成。例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。
(4) 各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。连接学习在声图文识别中占优势。分析学习已用于设计综合型专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的神经网络连接学习将在企业的智能管理与智能机器人运动规划中发挥作用。
(5) 与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算**议。
虽然目前对于机器学习所进行的绝大部分工作,都集中在算法的开发、系统训练以及如何保证系统能够更快速更高效的运行这些方面,但是我们不可以忽视这项技术的另一个层面:我们会用机器学习来做什么?
因为从目前的发展情况来看,这一方面并没有受到任何的监管。
从事算法工作的人只会去考虑如何写算法。一般来说,芯片中所涉及到的算法都是确定的,不包含任何的统计成分在内。所以,从理论上来说,人们可以通过算法了解机器学习是怎么一回事。
但是,我们必须了解的是,我们所期望见到的机器学习是基于算法来实现的。而这一类应用往往用统计的方式可能会产生更好的效果。但是统计的方式在IC设计的应用当中很难适用。
当深度学习中的这些数据损坏或者是被破坏的时候会发生什么呢?简单来说,这就相当于破坏了人类的DNA。
不可否认的是,数据的保存和存储总避免不了在无意当中被破坏。虽然我们在应用当中,多次强调要更好地保存数据,但是这种事情是很难预防的。
在早期版本的软件当中,我们一直都致力于如何去更新软件,而忽视了软件本身可能存在的错误。这个时候,就必须要有一个非常熟练的技术人员来帮忙指出错误。
一个小的错误,就可能导致后续庞大的失误,尤其是当这些软件被应用到其他的系统当中的时候。毕竟软件都是由人来编写的。
对于现在的数据软件来说,我们存在一套比较成熟的系统,能够帮助我们输入足够多的数据,然后这一系统能够帮助我们编写软件。但是这类软件就相当于是一个黑盒子一样,它不会存在一个用户界面,我们很难看到存储的数据到底是什么样子的,有没有存在什么错误。
如何解决这些问题呢?
解决这些问题的最好方法就是在机器学习的过程中添加一些检查的过程。
在我们实际的工作当中,我们一般都会这么做。当我们面对太多错误的时候,我们会怎么做呢,这时候就会要求另外一个人去检查工作来改正错误。
那么在机器学习当中,我们就会设立一个具有对抗性的网络机制来进行交叉的检测,从而提出系统当中可能存在的数据损害问题。
这是一个很常见的问题,甚至在我们的日常生活中,我们也会采用这种方式来处理错误。
比如说,当我不信任一个人的时候,就会找更多的人来处理问题,我不信任多个人的时候,就会去成立组织来进行处理,当我们不相信国王的时候,我们就需要议会来负责决策。这么多人的交叉监测,能够保证我们以最小的几率出现错误。
本质上来说这种避免错误的方式就跟我们管理人类社会是一样的。
无论我们采用什么样的机制来改正错误,机器学习首先需要的就是良好的编码方式。你必须编写出安全的代码,才能够进行之后的检查和修正工作。如果存在任何的错误,使得我们所得到的结果并不满足我们的期望,那么我们就需要确保能够有其他的方式来修正错误,从而达到自己所期望的结果。
这个时候系统产生的结果的错误程度就取决于整个应用程序。但是机器学习,由于数据所产生的错误,虽然产生的结果并没有自动驾驶那么严重,因为自动驾驶往往涉及到人的生命安全。但是我们仍然需要去学习如何处理坏的数据,客户也许也需要一个正确的处理方法。
另外一个事实就是,当你手动编写一个程序的时候,可能会有人告诉你,这个程序并没有达到我所需要的预期的结果。那么这个时候你就可以在此基础上去纠正你的算法,来保证能够达到所要的目的。
特别是在比较深度的是网络当中,但是在比较深度的神经网络当中很难通过单个解决方案来达到最终的目的。因为深度神经网络包含了太多的内容。
而且由于深度神经网络的复杂性和不可预见性,使得我们对于深度学习的内容没有很好的透明度。更高的透明度以及更好的分析数据工具都是非常重要的。这个时候我们就应该了解到,手动编码和机器学习的模式一定会产生难以逾越的难以解释的鸿沟。
工程师也会做出错误的决定,这种错误的决定应用到深度学习当中就可能是一个错误,也许这种错误不会产生重大的影响,但是这种错误也可能会造成错误的决定,使得整个决策过程都偏向错误的一面,最终深度学习所产生的结果就会产生偏移。
对于绝大多数人来说,这是一件令人担忧的事情。交叉数据交叉检测会帮助数据引导回我们所期望的结果。
另一个事实就是最新的数据更新的。
对于很多工程师来说,如果数据真的很陈旧,往往就不会重新输入这些数据,更新数据变得更为重要。如果工程师在很久之前犯下一个错误。这种错误往往会被遗忘。
这时我们就需要一个内置的保护措施来纠正这些比较长久的错误,比如说使用数据类型复杂多样的方式来进行交叉检测。
另一方面也许你对同一个数据库存在多种不同的看法,在准备和应用技术的时候,就会可能产生不同的错误或者是缺陷,那么在整个交叉检测过程中,我们不仅需要外部的检测,也需要进行自我检查。
随着机器学习被应用到更多更广泛的应用当中,就会产生一大堆未知的结果。
对于很多人来说,他们并不相信有人开始考虑机器学习的安全性问题。当前的目的,更多的主要是围绕着如何更好地用机器学习以及更好的会获得经济效益。
这就是机器学习的“黑暗宇宙”。
我们更多的关注的是机器学习的应用,而刻意的去忽视机器学习可能由于人类的错误产生的错误结果。事实证明,很多的应用都会产生安全问题,这些问题往往都是在一开始就存在的,为什么没有人去解决,非要等到真正应用成熟之后才会去解决呢?
就比如说在医学当中,为什么医学专业的人也会做些错误的事情了,因为人是会犯错误的,再好的技术到了人的手里,怎么会出现错误?
机器学习也是如此,程序和技术是人类来编写的,因此机器学习也会出现错误,这种错误经过机器的放大,往往会产生一些难以预计的结果。
甚至这种错误往往是有些人有意或者无意当中设置的,这些人可能在设置的时候就是刻意的要做这种事情。虽然这种概率很低,但是它就在那儿。
我们能否忍受机器学习中所存在的固有的错误和问题,还有待观察,但是这种错误和问题是由于人类本身的错误而出现的,我们就不能够忽视机器学习的错误,尤其是在我们为了谋夺更多经济利益的时候,而可以忽视的错误。
虽然机器学习是一种刚刚推出的技术,还没有非常明确的定义和未来,但是这些确实是需要一个多加谨慎和更多讨论的领域!不要因为利益和忽视错误,等到这一市场成熟了想着弥补错误,是异常危险的。(文/刘燚)
原文链接:https://semiengineering.com/darker-side-machine-learning/
今天是《半导体行业观察》为您分享的第1330期内容,欢迎关注。
关注微信公众号 半导体行业观察,后台回复关键词获取更多内容
回复 雄心 ,看《苹果的芯片帝国雄心》
回复 张汝京 ,看《中国半导体教父张汝京的“三落三起”》
回复 国产 ,看《国产手机崛起背后的最大受益者》
回复 ASR ,看《ASR收购Marvell MBU背后:一段有关RDA的爱恨情仇》
回复 IC ,看《一文看懂 IC 产业结构及竞争关系》
回复 展会,看《2017最新半导体展会会议日历》
回复 投稿 ,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!
摩尔邀请您加入精英微信群