欢迎访问
科技社会 >> 人物和思想 >> 大数据成为信息科技新关注点

大数据成为信息科技新关注点

——访中国工程院院士李国杰

发布时间:20120627  来源:中国科学报   作者:记者 甘晓

 

  最近,在信息科技领域,继云计算之后,大数据一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。

  信息社会的变化

  “60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。

  维基百科定义:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。

  国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。

  数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,李国杰告诉记者,各种非结构化的数据又增加了大数据的复杂性。

  2012329日,美国政府拨款2亿美元启动大数据研究和发展倡议计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。

  重视大数据提出的技术挑战

  针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。

  几百年来,科学研究一直在做从薄到厚的事情,把小数据变成大数据。李国杰认为,现在要做的则是从厚到薄,要把大数据变成小数据许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。他说。

  他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。

  基本科学问题仍未达成共识

  尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。

  许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将数据当成一个自然体来研究,即数据界

  然而,在李国杰看来,脱离各个领域的物理世界,作为客观事物间接存在形式的数据界的共性问题还不清楚。

  他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。

  大数据的复杂性主要来自个体之间的联系。数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。李国杰指出,“‘网络数据科学应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。

  因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。

  李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。他说。

 

更新时间:2012-06-28 10:24:22
 
网络链接(KSN) 友好的连接联盟,让更多人知道你合作成功 大专院校 研究院所 产业公司 科技园区 协会事业 期刊网络 服务博览
本网域名: www.知识产品网.com,www.zhishichanpin.com,知识产品.中国,www.diwuchanye.com,第五产业.中国,集创.com,自版.中国,ipr品牌.中国,cnd5.cn,cnd5.net
友 情
链 接
     网站介绍     服务协议     联系我们