奥巴马总统科技助理、白宫科技政策委员会(OSTP)主任霍尔德伦表示,过去联邦政府对信息技术研发投入有力推动了超级计算和互联网的发展。现在联邦政府对大数据研发的投入一定会提高美国的科学发现、环境与生物医药研究、教育和国家安全的能力。
美国启动“大数据研究与开发计划”编辑本段回目录
2012年3月29日,美国总统奥巴马宣布启动“大数据研究与开发计划”(Big Data Research and Development Initiative),旨在提高从海量数字数据中提取知识和观点的能力,从而加快科学与工程发现的步伐,加强美国的安全,实现教育与学习的转变。
这项计划是对2011年美国总统科技顾问委员会(PCAST)所提建议的回应,也是2011年美国网络与信息技术研发计划(NITRD)设立的“大数据研发高级指导小组”研究工作的体现。
白宫科技政策办公室的主管指出,“过去在信息技术研发方面的联合投资推动了超级计算机和互联网的创建,而‘大数据研究与开发计划’有望使我们利用大数据进行科学发现、环境和生物医学研究、教育以及保护国家安全的能力发生变革。”
目前美国多家联邦机构正在开展多个项目,以解决大数据带来的挑战。而为启动大数据研发计划,以美国国家科学基金会(NSF)为首的6大联邦机构宣布将投资超过2亿美元资助新项目的研发。这是联邦机构对该计划的首轮资助,包括以下项目:
(1)NSF与美国国立卫生研究院(NIH)
两机构联合招标的“促进大数据科学与工程的核心技术”项目将促进对大规模数据集进行管理、分析、可视化并从中抽取有用信息的核心科学技术的发展。NIH尤其关注与医疗和疾病有关的分子、化学、行为、临床等数据集。
(2)NSF
NSF正在实施一项全面的长期战略,包括从数据中获取知识的新方法、管理数据的基础设施、教育和队伍建设的新途径,尤其:
①鼓励科研院校开展跨学科的研究生课程,以培养下一代数据科学家和工程师;
②向加州大学伯克利分校提供1000万美元的资助,将机器学习、云计算、众包这三种方法整合起来,用于将数据转变为信息;
③为“EarthCube”提供首轮资助,使地学家可以访问、分析和共享地球信息;
④向一个培训小组分配200万美元,使本科生能在利用图形和可视化技术处理复杂数据方面获得培训;
⑤向一个由统计学家和生物学家组成的科研小组提供140万美元的资助,以确定蛋白质结构和生物学通路;
⑥召集跨学科的研究人员以确定大数据如何改变教学。
(3)国防部(DOD)
DOD每年投资2.5亿美元(6000万用于新的研究项目)资助开展以下研究:
①“数据到决策”:开发计算技术和软件工具,以分析那些与动态推理和推理机相连的海量数据(包括表格等半结构化数据和文本等非结构化数据);
②自动化:利用“数据到决策”取得的进展来开发相关的支持工具,这些工具能够识别趋势、适应现实世界的条件,并可不依赖于人类的干预而在复杂的动态环境中成功运行;
③人机系统:促进人机接口的发展,以实现运行和培训方面的无缝合作。
此外,美国国防部高级研究计划局(DARPA)开始启动“XDATA项目”,拟在未来四年每年投资2500万美元,开发分析大规模数据的计算技术和软件工具。项目拟解决的中心挑战包括:
——开发可升级的算法,以处理分布式数据仓库中的不完全的数据;
——创建有效的人机互动工具,其可以根据不同的任务进行轻松定制;
XDATA项目将支持开源软件工具包,为用户提供可在多种环境中进行大规模数据处理的灵活的软件。
(4)国立卫生研究院(NIH)
NIH的千人基因组计划数据集将通过亚马逊网络服务免费对外开放。这些数据总量达到200 TB,是世界上最大的人类基因变异数据集。
(5)能源部(DOE)
DOE将提供2500万美元的资助,建立“可扩展的数据管理、分析和可视化研究所”(SDAV)。SDAV将汇集美国6个国家实验室和7所大学的专家,开发新的工具来帮助科学家管理和可视化来自DOE超级计算机的数据。
(6)地质调查局(USGS)
USGS的约翰·韦斯利·鲍威尔分析与集成中心启动了8个新的研究项目,以将地球科学理论的大数据集转变为科学发现。
美国科学基金会领衔联邦大数据计划编辑本段回目录
奥巴马政府发布“大数据研发倡议”编辑本段回目录
- 提高收集、存储、管理、分析和分享大量数据最先进的核心技术水平。
- 利用这些技术加速在科学和工程中的创新速度,增强国家安全力量,以及改变在教育领域的授课和学习模式。
- 扩大开发和使用大数据技术的相关人才队伍。
- 鼓励研究型大学开发交叉学科研究生课程,来培养下一代数据科学家和工程师;
- 资助加利福尼亚大学伯克利分校计算项目探险(Expeditions in Computing project)1000万美元,该项目将融合数据变为信息的3个强大的方法——机器学习(machine learning)、云计算(cloud computing)和众包(crowd sourcing);
- 提供第一轮补贴资金来支持“地球立方(EarthCube)”——一个允许地球学家访问、分析和共享我们星球信息的系统;
- 分配200万美元的奖学金给一个研究培训小组,来支持本科生使用复杂数据图形和可视化技术的培训;
- 提供140万美元来支持一个测定蛋白质结构和生物通路的统计学家和生物学家重点研究小组;
- 召集跨学科的研究人员来确定大数据如何能改变教与学。
- 在新方法下治理和利用海量数据,并汇集传感器、感知能力和决策支持建立真正的自治系统,可以实现操作和决策的自动化。
- 提高情境意识来帮助士兵和分析师,并提供更多的操作支持。部门正在寻求一种百倍于分析师能力的增长,包括从任何语言文本中提取信息的能力增长,以及对目标、活动和事件数量观察力的增长。
- 开发处理分布式数据存储中不完整数据可升级的算法;
- 创建有效方便的定制可视化人机交互工具。