首页  >  IT频道  >  头条  > 正文

金海:数据处理的时效性是大数据时代面临的最大挑战

2018-01-17 11:43:20 | 来源: 国际在线 | 编辑: 许炀 | 责编: 韩俣
分享到:

  国际在线消息:1月17日,2018中国软件产业年会在京举行。此次年会以“软件,驱动智能的力量”为主题,邀请行业主管领导,以及中国工程院沈昌祥院士、倪光南院士,并联合百度、阿里巴巴、华为、中软国际、国网信通、广联达、 CSDN、博彦、易智端(中国)等企业大咖,为大家准备一场充满激情的行业盛宴。

图片默认标题_fororder_金海-华中科技大学计算机学院教授_副本

华中科技大学计算机学院教授金海教授作大数据处理的技术挑战及应用的主旨报告

  大会现场,华中科技大学计算机学院教授金海教授为大会作大数据处理的技术挑战及应用的主旨报告。

  以下为现场实录全文:

  非常高兴有机会到中国软件行业协会的年会来跟大家分享一下目前在大数据处理方面的一些挑战。我这个报告稍微偏技术一点,但是我觉得对我们整个软件行业的发展可能起到一个提醒作用,因为大数据处理面临一个非常关键的时刻。我先从例子讲起,这是2017年的双11,举了两组数据,大家都知道人造狂欢节。但是这个人造的狂欢节是我们大数据处理面临的最大一次挑战。这两组数据告诉大家大概多少时间完成100亿的交易,当然最高的峰值笔数25.6万笔,大概早上5分钟就达到这个效果。

  这说明什么问题?说明在大数据时代,数据量大已经不是我太关注的问题,最主要关注的问题是数据处理的时效性是我们面临的最大挑战,你如何在非常短的时间内把海量的数据进行处理,这就是大数据处理面临的最大的挑战。我们有大量的应用都是这种实时,近实时的应用,如果不能对这些数据进行及时处理,这些数据的价值就没有了,这就是大数据处理最大的挑战。

  我们现在通用的做法就是采用云计算平台,用海量的计算机,或者是大量的并行机做这样的事情,但是我们看一下计算机里面有没有别的方法解决这个问题。这个东西就是大家最聚焦的一个东西,内存计算。什么叫内存计算?这个最基本的概念,我们知道计算机里面最慢的固件是IO,我们现在计算机里面唯一的还有固件就是磁盘。IO是整个的处理瓶颈,所有的互联网公司都知道你们计算机都不用硬盘,都用的SSD,因为SSD比硬盘快一千个数量级,有一个更快的地方就是内存。如果有一个东西可以把数据都放到内存去算,一定更快,因为内存比我们的SSD还要排前面,这就是内存计算。

  内存计算不是一个新概念,但是为什么这几年,现在又引入到大家的视野当中,很重要的一点就是因为技术的发展。我们知道长期以来我们32位操作系统,32位操作系统给我们带来最大的障碍就是最大的群体空间只能4个G,普遍的电脑都是4GB以上的电脑,服务器更是,一个标准一个核2个GB,按照超级计算机,最快的太湖之光来看的话,单节点的内存就达到192GB,那原来的32位操作系统就不行了,所以要用64位操作系统才能有更大的虚拟空间。同时这个价格也在急剧的下降,当然2017年一个特例,由于三星在主导这个内存的市场,所以这个三星其他业绩不太好,内存条的价格提上去了,全球的内存价格去年有反弹,但是总的趋势来说内存在下降。

  另外还有大量的知识内存计算的软件出现了。比如说最著名就是(英文),这个比传统的磁盘性能大概要提高40万倍,整个来看内存计算是提升数据时效性处理的一个非常重要的手段。

  正是因为这样,2013年开始,全球出现一个新的词叫内存计算的复兴。最早由(英文)第一次在未来,每年有十项战略性技术第一次提出内存计算,2015年整个的趋势发展非常非常快。我们先看一下这种趋势有没有什么问题?这个就是我们面临的最大的障碍。基于DRAM的内存计算模式面临最大的挑战。第一个最重要的原因就是DRAM的特点就是内存的易失性对不对?你不给它供电就没有了,所以我们这样要对内存持续供电,造成这个内存的功耗非常高,我们现在计算机里面,我右边给了两张图,一个是IBMpower6的芯片,一个是IBM的power7的芯片,你可以看到随着CPU的功率的提高,内存的占比,功耗的占比从原来的30%扩大到50%,因为内存这个东西的进步非常非常缓慢,这个功耗的占比是非常非常大,就是它最大的问题就是内存是我们现在计算机里面将近占整个计算功耗的一半。

  所以现在要实现低功耗最主要内存这块要消除。另外就是存储密度低。刚才讲内存都是多少GB,但是硬盘进入多少TB的时代,我们内存还是,因为存储密度非常低,不能达到那么大的空间,另外成本也非常高。一般内存,机器配到100G内存的时候,机器的价格就是非常非常贵了,这就是内存现在面临的问题。

  有没有办法解决这个问题?这个就是今天要给大家分享非易失存储技术的兴起。现在新的信息功能材料大量的出现,使得有一种材料能够实现非易失存储。比如说左上面的PCEM,相变存储,一直到最右下列的(英文),这种所有的东西都是半导体工艺,也是实现了非易失存储非易失存储。非易失存储的意思是说它可以像硬盘一样数据不丢失,但是它可以达到近似于内存的性能,我们可以看看这个性能。左边三栏分别告诉非易失存储的芯片,左边是忆阻器,这是目前全世界性能最好的。但是这也是唯一现在还没有走出实现的,还在是现实,还没有走出市场的。包括相变存储,现在世界已经有了,旋转存储这是右边三类,右边都是DRAM、FLASH、SSD、硬盘,从这里可以看到,中间第三行、第四行这两组数据可以看到,在读的性能上,这些介质的性能几乎和我们内存性能是一样的。就是说在读的这个上面完全可以达到内存的性能。写的性能上比我们贤能的DRAM性能慢一个数量级,但是比SSD还快一百倍,因此这样这些存储介质性能不断地逼近我们的内存。

  这个最著名的例子就是2015年底英特尔提出来的,但是今年上半年才攻破的技术叫3D Xpoint技术,现在已经在全球已经有了。这个技术就是今年上半年第二季度,6月份的时候在市场上正式推出的产品叫英特尔的Opetane ,国内把它翻译成为叫傲腾芯片,但是现在买不到。为什么呢?因为被所有的互联网公司全部把它给垄断了,互联网公司全买断了,因为生产量跟不上,大家对这个需求非常大。

  可以看到,今年出产的是PCIE插槽的,放两个傲腾的片,这一个条375TB的存储量,就是它的容量现在已经可以超出几百G。而且按照英特尔的路线图,2018年底就会出现(英文)插槽,可以看到这个,就是插在我们内存条上面的直接的内存条。每个内存条有三种型号,最大的一条可以达到512TB,等于说就是我们将来的买到的这种介质的内存条一条就是512TB,也就是说我们将来的内存会进入到TB时代,就是我们不再是多少GB,是多少TB,和我们硬盘差不多了。

  这种我们东西我们把它叫做存储型内存,这个级别是存储级别的,但是还是内存,可以实现内存的当内存使用,还可以持续存储,还不会丢失,所以这个静态功耗基本是零,不供电数据也有,这样就把50%的内存功耗大大的减少下来,可以使整个系统的功耗下降,而且寿命非常长,这就是SCM,这种东西的出现将会导致我们整个计算机的结构发生一种翻天覆地的变化。我们知道在2000年的时候,我们计算机有一个固件退出我们的历史舞台,这个就是软驱。2020年我们另外一个固件也会退出我们历史舞台,就是硬盘。2020年左右硬盘不再成为我们联机存储路链,而是脱机存储路链。就像我们移动硬盘你还可以用硬盘,但是联机的时候,所有TB及以上的存储全部可以用内存来做到,这就彻底打破我们的I/O的瓶颈,也就是说我们可以所有的数据都放到内存里面进行处理,去解决高大数据处理的时效问题,这样就构建一种新型的内存结构,这也是全球这几年大家关注的一个焦点问题,就是构建一个这种异构的混合的结构。

  DRAM和SCM混合的内存结构,这样把原来I/O的瓶颈移到CPU端,因此这种技术的出现的不仅解决I/O的瓶颈,同时也促使了CPU更好发展,现在CPU过剩,用不上这些,这是现在最大的一个挑战的问题。

  当然做这件事情的话,全球现在和我们一起在做,国内已经开始在做这件事,但是正像倪院士说的一样,我们要实现自主可控,我们在这个方面完全没法做到自主可控,现在的控制权完全掌握在国外的芯片手里面。现在国外和我们做的一样就是惠普,他们提出的The Machine这个项目,他们用的最好的技术,就是忆阻器,它刚才我也说了,它是现在唯一现在还没有走出是实验室的一个东西,不像PC相变存储,它已经可以在市面上买得到了,这还没有走出实验室。所以它这个项目,原来2016面就出第一款产品,现在要推到2018年都未必要出来。但是他可以采用单机对40个节点共享内存的方式,贡献160TB的内存,40个节点贡献内存,以CPU为中心的计算过渡到内存的为中心的计算,所以他们现在做到了。

  根据今年在2017年,惠普的高级工程师在我们存储领域,这个大会的报告可以看到,这种技术的出现,无论对内存分析、搜索、图计算以及金融计算,金融科技都有大幅度的提高,几十倍到上百倍甚至上千倍的提高,这项技术对整个的产业,大数据,促进产业推动作用是非常非常巨大的。对我们软件行业面临最大的问题就是我们所有现在软件将来可能都不能用,因为现在我们的编程模型发生变化,原来都是基于硬盘I/O的存储模型,现在发生变化,没有硬盘,都在内存里面,所以编程模型第一个发生变化,这个SNIA都知道,是国际上的互联网产业联盟。提出的第一个标准就是(英文),怎么编程,这是做软件第一个想到的,将来程序怎么样?这个大公司都在里面,我们国家的华为,这是我们国家唯一一个公司在里面参与国际标准的制定。

  今年2017年已经发布第二版,第一版是2015年发布的,告诉大家将来怎么编程序。这个编程序也提出两种模式,这个也从这两个上面提到我们面临最大的障碍是什么?第一个目前推出的PCIE的插槽的这么一种芯片,为什么呢?这种芯片已经有了,为什么不直接把它做成那个呢,直接把它做成PCIE呢。很简单,第一种模式现在采用原来的I/O模式的编程模式就可以了,大家都不用关心,英特尔和微软做出一个java就可以了,它已经远高于I/O设备,这个可以说这个是目前这个设备里面的最好的解决方案,因为软件不需要太大的改动,只要做个java就可以了。但是内存很多的系统发挥不出来,因为它是按照(英文)使用,不是按照内存使用。

  将来就会构建一个,就是右下图看到的一个叫PM,PM就是Programming Modes Overview这种,这种东西的话就操作系统,这也是大家你可以知道,为什么现在没有推出来,芯片都有了,为什么不直接插到内存条上面呢?因为操作系统都没有准备好,windows而都没有准备好。所以它现在第一款能够让大家使用的,所有现在互联网厂商买的都是直接一插做成I/O设备,但是比I/O设备速度要提高一千倍,所以大家现在很高兴,反应速度很快,但是它还是I/O设备来使用,所以这就是我们现在做软件行业来说面临的最大的问题。这种架构对我们整个软硬件的生态会带来巨大的冲击,这也是为什么说让我做一个报告,我说一定要把这个东西给大家讲讲,在座都是软件行业,软件行业将来会发生翻天覆地的变化,就是编程模型发生变化,无论是体系结构,是平行体系结构还是层次体系结构。

  但是软件来说,操作系统会变,这是不是给我们国产操作系统很好的机遇,数据组织结构会发生变化,存储结构会发生变化,对不对?我们原来的文件结构是不是会发生变化?我们的数据库,国内在做基于这个的国产的数据库和(英文)要比,因为(英文)是纯内存型的。还有(英文)的方式怎么来进行,这种组织方式会发生变化,编程模型刚才已经说了,你再考虑硬盘的I/O的问题,数据持久化了,在这种情况下怎么去做,还有多机,比如说40个机器大家共享大的内存池,以后构建出来的机器都是一个(英文)结构,所有的直接在里面,当然这个出现很大的问题,安全性的挑战。

  这种介质现在的做法,刚才为什么说是三维堆叠的,如果一个平面结构很容易产生读写磨损,这种芯片最大的缺点就是写寿命有限的,如果没有很好的策略平衡这个写寿命,很快就磨损完了。我们做过实验,在一个单元使用,一天这个内存就不能用了,这个芯片有什么用,所以一定要有操作系统平衡它的读写。如果发起恶意的攻击,避开操作系统,直接往里面写,一下就把你内存写完了,就不可用了,机器不可用。以前避开操作系统写内存不会出现这个问题,但是现在会出现这个问题。

  还有就是数据非易失,数据一直在那里,就和硬盘一样,现在用云操作硬盘,就是介质虚拟机,虚拟机一撤数据就没有了,他告诉你用这个以后,你一撤以后数据还在内存里面,你随时可以把你原来认为删掉的数据读出来,因为为了平衡它的读写,它每次的(英文)是不会覆盖原来上面的数据的,它一定会找一个新的块去写,所以原来的数据一定要写满之后要统一刷新一次,把它变成一个可读写的,所以数据一直在那里,而且随着容量的扩大,几TB的数据,一时半会儿写不满数据,原来的数据都在那里,你认为删除的数据都出问题,都可以读出来,所以安全性的挑战,以前做内存不存在这个问题。

  最后我介绍一下我们做的工作,这个也是挺有意思的,这是一个趋势图,这是2015年曾经做的全球基于磁盘,内存的数据管理系统的产业地图,这个上面都是开源软件,大量都是基于SSD,基于硬盘的,现在很多公司开始做基于DRAM的,因为DRAM你现在可以做一个纯内存的,这种东西做完了以后,只要ABM介质一出现,你是很容易移植过来的,这就是大家做的事情。所有的里面要说的一点,就是我们唯一可以看到红圈上面的(英文),是我们2014年做的纯基于内存的大数据的(英文)。我们大家知道(英文)最大的麻烦就是一杀之后这个性能就急剧下降,因为基于I/O操作,那么我们就把这个I/O阶段全部去掉,只做内存,这是一个开源软件,这是我们做的那个。

  最后对这个报告做一个总结,内存计算已经从原来的萌芽阶段,现在讲的东西不是新东西,因为现在国际上已经做了很长一段时间。现在已经从原来的介质,能不能使用这个东西变成现在怎么使用,怎么做缓存管理、数据管理和模型,从萌芽阶段进入到探索阶段了。可能不远的未来,一旦这个芯片大规模的上市,大家都可以买到就进入使用阶段,就探讨怎么提升芯片的性能,所以现在处于中间阶段,而且处于非常非常关键的阶段。我刚才和卫锋说,我不希望将来等到这种介质上市以后,我们国内所有的软件厂商都没有做好准备,都用别人的东西,这就是我们比较悲哀的地方。

  最后对这个发展趋势做一个展望,将来预计有两种不同的模式,这个对大家也是很大的挑战,尤其做软件很大的挑战。第一个采用三维堆叠的模式,把CPU做到内存里面,存算一体的模式。CPU做到内存我们还可以用多核的编程模式出现。如果将来出现忆阻器,忆阻器本身是最具挑战的东西,忆阻器做存储的时候就可以做计算,这里列出来几种,所有的逻辑运算,包括加减运算,基本的算术运算,用忆阻器本身就可以实现。就是将来你的数据写到内存里,和从内存里读出来都不是一个数据,都已经在内存里做了计算,这样的东西对我们将来的编程面临的挑战更大。所以存算一体是我们未来的发展趋势,也是对我们软件行业提出的最大的挑战。我的报告就到这里,谢谢大家!(声明:所有会议实录均为现场速记整理,未经演讲者审阅,国际在线登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。)

国际在线版权与信息产品内容销售的声明:

1、“国际在线”由中国国际广播电台主办。经中国国际广播电台授权,国广国际在线网络(北京)有限公司独家负责“国际在线”网站的市场经营。

2、凡本网注明“来源:国际在线”的所有信息内容,未经书面授权,任何单位及个人不得转载、摘编、复制或利用其他方式使用。

3、“国际在线”自有版权信息(包括但不限于“国际在线专稿”、“国际在线消息”、“国际在线XX消息”“国际在线报道”“国际在线XX报道”等信息内容,但明确标注为第三方版权的内容除外)均由国广国际在线网络(北京)有限公司统一管理和销售。

已取得国广国际在线网络(北京)有限公司使用授权的被授权人,应严格在授权范围内使用,不得超范围使用,使用时应注明“来源:国际在线”。违反上述声明者,本网将追究其相关法律责任。

任何未与国广国际在线网络(北京)有限公司签订相关协议或未取得授权书的公司、媒体、网站和个人均无权销售、使用“国际在线”网站的自有版权信息产品。否则,国广国际在线网络(北京)有限公司将采取法律手段维护合法权益,因此产生的损失及为此所花费的全部费用(包括但不限于律师费、诉讼费、差旅费、公证费等)全部由侵权方承担。

4、凡本网注明“来源:XXX(非国际在线)”的作品,均转载自其它媒体,转载目的在于传递更多信息,丰富网络文化,此类稿件并不代表本网赞同其观点和对其真实性负责。

5、如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。