院士观点:计算驱动当今的发现和创新

发布时间:2023-12-30  

2023 年10 月,CNCC2023(2023 中国计算机大会)在沈阳召开,中国工程院院士、之江实验室主任、阿里云创始人王坚博士做了“计算驱动的科学发现和科技创新”主旨讲演,认为20 世纪是电驱动的时代,现在是计算驱动的时代。云计算将是未来趋势,于是王坚院士等人当年创办了阿里云。过去的很多思想是靠假设来驱动的,数据最重要的作用是帮助人们产生新的假设。计算驱动是计算密集型、数据驱动和基于模型的完美结合。

本文引用地址:

1 20世纪是电气化驱动的

之前的科学发现和创新是被什么驱动的?图1是美国工程院对20 世纪最伟大的工程技术发明做的调查,可见第一项是电气化。

表1 20世纪最伟大的工程技术发明

1703905027416450.png

如今,电气化已非常普遍。例如,人们在依靠照明的会议室里召开“2023 中国计算机大会”,如果没有电气化,这是无法完成的。如果仔细看表1,也很有意思,像激光、互联网、计算机等排在电气化之后,而你再往深层次想象,如果没有电气化,可能后面很多的发明都不会存在,所以电气化对人类社会的推动是非常巨大的。

2 今天是数据驱动的时代

计算能否像电气化一样,扮演着超过人们今天想象的对社会发展起着根本推动的角色?

回顾历史,20 世纪就是一个被电驱动来做创新的时代。从1882 年开始,电第一次作为一种公共服务被提供的时候,世界就发生了一次巨变。

电力作为一种公共服务是由爱迪生倡导的,尽管他发明的是直流电,最后交流电替代了直流电作为了公共服务的标准。但是不管怎样,爱迪生的发明仍然被认为是电力革命的里程碑,因为使得电力可以被有效地传输和使用。之后,因为有了电气化,全世界的城市发生了一次天翻地覆的变化。所以电气化推动了城市的进步。关于数据驱动,如果把计算放到一个更广的视野里来看,数据驱动究竟要改变什么?

关于数据非常有意思:世界上所有城市只占了地球表面积的2%~3%,但是今天容纳了大概全球60% 的人口,预计到2025 年将容纳80% 的人口,这意味着更多的人会到城市里来,不管你愿意不愿意,不管城市病有多严重,但是一个很挑战的事情就是世界上所有城市消费了超过74% 的世界能源。从发展的角度来看,我们面临的挑战可能比想象的要大、紧迫。

当年IBM 首次提出smart city(注:源自IBM 的“智慧地球”),人们翻译为智慧城市,实际上叫“灵巧城市”更为恰当。里面有一个数据,对一座城市而言,大概有35% 以上的水是被漏掉的(注:即使打开水龙头把水放掉都不算漏掉)。所以可以设想一下,一家水厂35% 的水就无声无息地消失了,但是人们拿它没有任何办法。这个问题并没有随着技术、信息化技术的发展被解决掉。

根据爱尔兰的调查,该国2018 年约有46% 的水从自来水管网被漏掉。多么惊人的资源浪费!希望2021年能够把漏水量降到38%,到了2030 年这个比例降到25%,即1/4 的水被管网漏掉。

所以人们认真想一下,这个世界面临的挑战比我们在某一个领域看到的挑战要大得多。

根据这个数据,你会发现,漏水的多少跟一座城市发展的水平没有关系。因此,人们平时讲绿色、可持续发展,面临的挑战或数字可能是超乎想象的。

那么再回到它的原点,也就是说这些问题都带来了电气化的问题,所以人们可以人们看到图1 的水平红线,我们平时讲到2050 年或2060 年,我们要达到碳中和水平的碳排放量。

所以人们看到一件很有意思的事情:事实上,今天的碳排放量是随着1850 年以后电气化大规模普及而带来的,之后呈这样一条指数型的曲线上去。所以人们认真想一下,如果我们要在2050 年把它回到碳中和状态,要有一条更陡的曲线把它降下来。

为什么要谈数据驱动的科学发现和创新?

人们认真想一想,从1950 年到今天,这条碳排放的曲线能这样爬上来,从另外一个角度,也是得益于科技的创新和发现。

1703905133885834.png

图1

所以这是一个非常有意思的分水岭,是科技和创新的发现,使得人类消耗自然资源的能力被极大地提升了,造成了今天的碳排放量水平。从另外一个角度,撇开我们所有的观念的话,我们得问一个非常严肃的问题:在接下去的二三十年,我们能不能用更短的时间、更快的速度把碳排放量降下来?那么就得靠我们平时常讲的数字化。

人们设想一下,计算和数字化的关系就是电和电气化的关系,这就是为什么要谈到计算驱动的科学发现和创新,最后的结果使得我们有机会在2050 年或2060 年把碳排放量能降到我们今天希望的碳中和的水平。

从这个角度讲,给这个学科带来一次非常难得的机会。如果设想一下今天的数字化跟100 年前的电子化来相比,计算在这里扮演的角色就是非常值得期待的。预计:计算驱动(Computing-driven)的计算是会在21 世纪接下来的100 年重新发明所有的事情,包括城市在内。

3 “计算”的内涵和外延

有三个词很重要,它们是有关系的。Computing( 计算) 的含义是非常丰富的。如果去看文献,可以看到Computing( 计算) 是早于Computer (计算机)这个词,即计算是早于计算机这个词出现的。所以在王坚院士的语境里,Computing( 计算) 这个词包含了三个很有意义的组成部分。

在今天的人工智能环境的语境下,computing ( 计算) 可以看想象成这三个词的综合:① computational intensive, 王坚院士对这个词斟酌了很久,认为指“计算”密集型,尽管到了中文的翻译, 此“ 计算(computational)” 非彼“ 计算(Computing)”。② 数据驱动。③基于模型。

从计算密集型角度,人们会想到超算。摩尔定律(图2)显示了计算是怎么发生、发展的,其速度超过任何一个领域的速度。

image.png

图2 摩尔定律示意图

同样很有意思的是人们很熟悉的,今天做人工智能的时候,会谈到英伟达的A100 和H100 显卡。如果把时间稍微拉长一点,会发现英伟达GPU 从3 亿个晶体管(GeForce 7800)到今天800 亿个晶体管(H100),增长速度是非常惊人的。在早期集成电路出来的时候只有2 个晶体管,英特尔在70 年代初的第一个芯片只有2000 多个晶体管。所以可以设想一下,从一只手就能数出来的数量,到人生一辈子都数不完的800 亿个晶体管,计算的物理基础发生了非常大的变化(图3)。

1703905288726847.png

图3

2006 年Jeannette Wing 提出一个想法,尽管没有流行起来:Computational Thinking,慢慢改变了人们的思维。所以“计算”是非常值得深思的,中文一个词“计算”很难反映深刻的内涵和外延(图4)。

image.png

图4

2007 年Gordon Bell( 美国微软湾区研究中心高级研究员,高性能和并行计算领域先驱) 讲“计算”这件事情,讲到 HPC 计算会被挑战的时候,他在PPT 里写了这么一句话,可能云的服务能够慢慢来支持高性能计算(HPC)。人们会发现,当计算发展到一定程度时,关于云的思考就会被自然而然地带出来。所以计算computational,即使到今天还是值得我们认真地来思考。

4 从假设驱动到数据驱动

人们比较熟悉的,当年有一个所谓的第4 范式,叫做数据驱动科学发现。曾经扮演一个非常重要作用的人叫Jim Gray,他当年在微软研究院工作,他个人也很传奇,在2007 年一次出海后就消失了,也没有证据消失在哪里。

他的书《The Fourth Paradigm——Data-Intensive Scientific Discover》 ( 第四范式——数据密集型科学发现) 是在他身后出版的。很有意思的是他生前最后一次讲演就是关于数据驱动。

那么这里就有一个问题,在数据驱动以前的科学研究到底是由什么来驱动?

王坚院士认为:很多的科学发现,或者今天的很多思想是靠假设来驱动的。

所以王坚院士的观点是什么?数据驱动不是拿数据来证明或者解决你的假设,数据最重要的作用是帮助你来产生新的假设。所以到了一个新的科学发现的阶段——数据驱动的科学发现。

这句话很抽象,但在一些学科的发展过程中有非常有意思的例子。例如英国著名天文学家Fred Hoyle 爵士曾在1948 年时设想从外太空看地球是什么样,他的假设是:一旦有人从外太空拍摄一张地球的照片,一种前所未有但无可辩驳的全新观念就会诞生。1972年人类第一次到太空拍摄了地球的照片,人们才有一个概念叫蓝色地球。这张照片从根本上改变了一件事情:突然发现不是一点点地研究地球,而是应该把地球当作一个整体来研究。因此出现了地球系统科学。人们看到了三条主轴线:地球系统科学的出现跟一些机构有关系,跟一些研究也有关系,但很有意思的是觉得跟这张照片紧密相关。

所以数据会改变很多今天我们自己不会注意到的东西。

可见,无论是假设驱动还是数据驱动,都会改变我们很多想法。

人们可能知道哈勃望远镜和很多天文学的研究,但是当王坚院士在看这些文献的时候,有一句话是深深打动他的,哈勃从一个没有任何认知的地方去拍照,而给我们带来了对宇宙的一种全新的认识。这就是为何是数据驱动、不是假设驱动的科学发现和创新的时代。

望远镜第一次出来的时候大概也是类似状态,那时并不是因为知道太阳系是什么样子,只不过是因为有了望远镜,让我们慢慢清楚太阳系是怎么工作的。所以数据会深深地改变我们对很多事情的看法。

再回到模型,也是很有意思的。人工智能从1947年开始到今天,此“人工智能”已非“彼人工智能”,方法论、逻辑、假设等不一样。已到了一个基于模型的时代。

如图5,尽管只总结到了2020 年。ChatGPT 是在2022 年底、2023 年初突然火爆起来的。如图5 会发现,很多年前人们对于模型的收敛已经到了GPT 上,只不过人们并没有意识到其会这么彻底改变我们对这么一个学科/ 领域的重新的认识。

1703905473536766.png

图5

所以从这个角度,GDP 在2022 年底、2023 年初火起来是有一点后知后觉的。

从图5 可以看到,其实很早就应该火起来。当然结果就是中间穿插了一件事情,就是AlphaFold(注:2018 年DeepMind 公司开源的人工智能系统, 借助AlphaFold 可以更准确地预测蛋白质的形状。)出来的时候, 当时一篇文章中有这么一句话,biology’s ImageNet Moment(生物学的ImageNet 时刻)(如图6)。

1703905542101526.png

图6

从事计算机学科的人会非常骄傲的,ImageNet 在那时推动了很多事情的发展,现在会有人把它作为一个非常重要的思考/ 研究的方式。这句话的本质是:未来的研究要基于平台,ImageNet 就是平台的一个非常重要的代表。ImageNet 是集计算(computational)、数据驱动、模型为一体的载体,只是那时人们简单的把它想象成一个数据集。

总结一下什么叫“生物学的ImaginNet 时刻”,就是GDT+ 的时候。这是我们第一次能够把理论框架收敛、集中的方法上。

今年英伟达的CEO 黄仁勋说:ChatGPT 是AI 的iPhone 时刻。套用了前面的那句话。所以这个时候很多事情、关系发生了一些有趣的变化。

当模型走在一起的时候,黄仁勋又说了另外一句:最后人工智能和超级计算怎么被人们用?最后还是要回到云的服务(图7)。

image.png

图7

吻合了。2009 年王坚院士开始做云计算,到今天看是非常幸运的,因为这个领域里的技术有机会变成一项非常重要的产业,而且这个产业还有很长的生命周期,就像当年电气化一样。这既是云计算的幸运,也是计算的幸运。

5 原始创新更重要

不过,一讲到今天的人工智能和云计算,人们就会谈到英伟达的A100 卡、H100 卡,很多人会觉得无卡就无能为力。参加CNCC2023 的有很多学生,王坚院士想对学生和科研人员说,所有的创新都是人创造的。例如GeForce 7800 卡( 图8)。大概是2006 年的卡,它是第一个把CNN 算法跑在了GPU 卡上, 速度比CPU 快了4倍。但这张卡在当年是张什么卡?在中关村的所有网吧里都有,不是被禁运的,更不是只有少数人买得起的,因此是所有人能用的卡,但是,有人第一次把CNN 的算法跑起来,为我们打开了一个新天地。

1703905661270182.png

图8

这张卡就更加有意思了,6 年以后的2012 年,两位来自多伦多大学的学生Alex Krizhevsky 和Ilya Sutskeverz(他们的导师是人工智能的三巨头之一Geoffrey Hinton)就是用了两张GeForce 7800 GPU 卡,在当年的ImageNet竞赛上获得了冠军。

所以人们可以设想一下,凭借两张当年每一个实验室的学生都有的图形卡,但是他们的智慧使得它能够让一个新的世界开始。

GPU 能成为深度学习的必选项,而且被工业界最后采用,事实上是这两个学生创造的。王坚院士是从工业界来的,有时候感到丢脸——是两名学生为我们定义了今天人工智能应该用什么样的框架来做。从这个角度看,学生的创造力是无穷的。

这两名学生的第二人——Ilya Sutskeverz 也是今天OpenAI 的首席科学家。所以创新也不是一天就可以成就的。

从图3 的架构演进可以看到,在2004 年的技术架构基础上完成了今天人们都趋之若鹜的一卡难求的状况,可以看到原始创新的重要性。今天是我们可以重现2004 年那一代学生所创造出来的事情的时刻,所以所有的事情远不是结束,而是刚刚开始。

自AI 诞生后的几十年中发生了很多事情,从1997年的Deep-Blue(深蓝超级国际象棋电脑),到2016年的阿尔法狗,到今年的chatGPT,每一次重要发明都带来一次变革,而且这种变革接下来因为计算的驱动还会继续地发生下去。所以慢慢地,到最后所谓的计算驱动,就是计算密集型、数据驱动和基于模型的完美结合。

(本文来源于《电子产品世界》杂志2023年12月期)

文章来源于:电子产品世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    2020 峰会着重讨论的议题。 在 CCF-GAIR 2020 峰会的开幕仪式上,中国计算机学会(CCF)副理事长、华中科技大学计算机科学与技术学院教授金海发表致辞表示,CCF-GAIR大会......
    40年就达到100多万倍。   这可能看上去是一个巨大的飞跃,但发展趋势实际上超出了这个预期。1983年,弗伯和英国计算机科学家索菲·威尔逊设计了一种被称为ARM1的处理器。它实......
    硅晶圆尺寸的集成来规避光刻机的区域限制本文引用地址:一块由整个硅晶圆构建的大型集成电路可能是中国计算机科学家一直在寻找的解决方案,因为他们设法绕过美国的制裁,同时提高处理器的性能。 由于受到美国实施的限制,中国科学家在开发超级计算机......
    、013机和757机等大、中型计算机的外部设备及其控制系统的研制,1984年被评为首批“国家有突出贡献中青年专家”。 曾茂朝是第八届全国人大代表,曾任国务院电子振兴领导小组电子计算机顾问组副组长、中国计算机......
    机和757机等大、中型计算机的外部设备及其控制系统的研制,1984年被评为首批“国家有突出贡献中青年专家”。 曾茂朝是第八届全国人大代表,曾任国务院电子振兴领导小组电子计算机顾问组副组长、中国计算机......
    大奖颁奖典礼在香港会议展览中心隆重举行。未来科学大奖设有 "生命科学奖" "物质科学奖" 和 "数学与计算机科学奖" 三大奖项,自成立以来,始终坚持以创新模式推动中国基础科学的研究,促进科学......
    功融资的加持下,象帝先由中国计算机及芯片领域的顶尖科学家领军,并拥有一批平均从业经验超过15年的资深专家,目前已经取得了国家发明专利授权百余件。 据悉,象帝先的主要产品包括天钧一号和天钧二号GPU,主要......
    思尔芯亮相CCF Chip 2024,展示创新EDA技术与产学研合作;以“发展芯技术 智算芯未来”为主题的第二届中国计算机学会芯片大会(CCF Chip 2024)在热烈的学术氛围中顺利召开。本次大会由中国计算机......
    思尔芯亮相CCF Chip 2024,展示创新EDA技术与产学研合作;2024年7月19日至21日,以“发展芯技术 智算芯未来”为主题的第二届中国计算机学会芯片大会(CCF Chip 2024)在热......
    将没有足够的工程师、计算机科学家和技术人员来支持未来十年的快速扩张,新增职位的空缺率或达到58%。 报告预计,到2030年,美国芯片行业的员工人数将增加约11.5万个,从今年的约34.5万人增至46万人,其中......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>