|
楼主 |
发表于 2017-1-8 08:11:37
|
查看全部
海量数据对计算技术带来巨大挑战 数据,是信息化时代最丰富的产品。每天,各行各业都在源源不断地生产各类数据。量变必将会产生质变。PB、EB、ZB级数据量,对于计算机的硬件和软件都已带来巨大挑战。
据邬江兴院士介绍,从硬件方面来看:首先是机械硬盘问题。由于价格和持久性要求,绝大部分存储设备都是用的机械硬盘,这类硬盘一次读写需要至少6毫秒的机械臂运动,对于PB级以上的数据来说,这是一个大问题;其次是体系结构问题。现有的计算机体系结构都是从有利于科学计算的角度来设计的,往往不适应大数据分析角色;此外,什么样的计算框架有利于大数据分析,也有待试验研究。目前的HADOOP/MAP-REDUCE计算框架,只是表明能够处理大数据,其性能远远达不到大数据分析的要求。
大数据的移动也是一个巨大问题。比如从上海到北京,数据很难在期望的时间内实现移动,而且消耗的功率数十倍于处理这些数据的能量,美国亚马逊公司研究认为:在现有技术条件下,用传统运输工具运输PB级数据,要比通过网络移动数据更为实时和经济些。未来数据不移动是否可以?这样的“多地计算”或“异地计算”技术能否发明出来?这都需要不断试验、不断创新。
实际上,PB级以上的数据管理也是个极为棘手的问题。传统的数据管理是由数据库管理系统(DBMS)来完成的,由于技术设计的原因,难以处理数百台以上服务器集群的数据,并且处理的数据类型单一,不能适应大数据处理的需要。目前还没有应对数据量爆炸性增长导致数据管理挑战的方法。
“数据分析是大数据事业的核心。但是,绝大部分数据挖掘算法只是针对内存数据设计的,一旦数据涉及到外存,算法效率就非常低。目前,还没有看到好的算法。当然,这与传统计算机体系架构、计算框架都有关系。”邬江兴院士说,“我们在全球率先提出建立大数据试验场,就是要探索新型的计算技术,来解决大数据面临的挑战性问题。”
那么,现有的超级计算中心和云计算基地能否应对大数据面临的挑战呢?邬江兴认为,答案是否定的。
这是因为超算中心是一类具备超级计算能力的基础设施,面向高速、大运算量的计算密集型应用(如科学计算、气象预测、灾害防治、大气模拟、动漫制作等),并不适用数据密集型应用,比如PB级以上大数据的应用。
云计算是一种基于互联网的资源、平台和软件的服务交付模式。它通过虚拟化和服务化手段,为用户提供一种灵活方便、动态持续可用、可伸缩、按需付费的资源、平台和软件。“云平台”不是也不可能解决大数据的处理、存储、传输和管理等问题,而且还存在数据安全性不能保证、处理效率低下、数据移动困难等其他难题。 |
|