科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 8200 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2009-11-01
高兴
高兴
发短消息
相关词条
重新定义公司
重新定义公司
学术自由的宪法基础
学术自由的宪法基础
TED中国化之路
TED中国化之路
智慧经济
智慧经济
学习方法论
学习方法论
山寨文化与社会解构运动
山寨文化与社会解构运动
互联网思维经济学逻辑
互联网思维经济学逻辑
互联网与资本主义
互联网与资本主义
集体智慧
集体智慧
可删除互联网
可删除互联网
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

LHC计算网格 发表评论(0) 编辑词条

目录

LHC计算网格编辑本段回目录

网格计算并不是回应LHC挑战的唯一答案,一些场合下志愿计算也大有用武之地。具体而言,志愿计算非常适合需要大量计算能力而只需相对很少数据传输的任务。

大型强子对撞机(Large Hadron Collider ,LHC)粒子加速器致力于革新我们对于宇宙的认识。世界范围的LHC计算网格(LCG)项目为整个使用LHC的高能物理社区提供了数据存储与分析的基础设施。

启动于2003的LCG,目的是将分布在全世界数以百计的数据中心的成千上万的计算机整合起来,形成一个全球化的计算资源,对LHC所收集的海量数据进行存储和分析。据估计LHC每年将产生15 petabytes(1500万gigabytes)的数据。这等于一年要填满170万张双层DVD盘片!全世界数以千计的科学家需要访问和分析这些数据,所以CERN与33个不同国家的机构展开合作来运营LCG。

LHC实验产生的数据将分布到全世界,同时在CERN用磁带保有一份主备份。经过初始处理,这些数据将分发到十一个大型计算中心——包括加拿大、法国、德国、意大利、荷兰、北欧、西班牙、台北、英国,以及位于美国的两个站点——这些中心拥有足够的海量存储以支持大容积的数据片段,同时能对计算网格提供昼夜不停的支持。

这些所谓的“一级”中心将为超过120个的“二级”中心提供数据以用于专门的分析任务。科学家们可以在本国访问LHC的数据,通过本地计算集群甚至是个人PC。

LHC计算网格由三个“层级”构成,共有32个国家正式参与其中:

  • Tier-0为一个主站:CERN计算中心。所有数据都将通过这一中央枢纽,但它只提供总共不到20%计算能力。
  • Tier-1由十一个站点构成,位于加拿大、法国、德国、意大利、荷兰、北欧、西班牙、台北、英国,还有位于美国的两个站点。
  • Tier-2由超过140个站点构成,聚集成38个联邦,覆盖了澳大利亚、比利时、加拿大、中国、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、匈牙利、意大利、印度、以色列、日本、韩国、荷兰、挪威、巴基斯坦、波兰、葡萄牙、罗马尼亚、俄罗斯、斯洛文利亚、西班牙、瑞典、瑞士、中国台北、土耳其、英国、乌克兰,以及美国。Tier-2站点将提供LHC数据处理所需能力的50%。

如若LHC加速器以理想的方式运行,那么需要为全世界超过500所研究机构和大学的近5000名参与到LHC的实验的科学家提供对实验数据的访问。除此以外,在LHC预计超过15年的生命周期里,所有的数据都须是可用的。

出于经济和技术的众多理由,都强烈需求一个分布式架构

作出采用分布式计算的方式来管理LHC数据的首要考虑还是金钱。在1999年,当LHC数据分析计算系统设计工作开始的时候,就很快认识到了其所需求的计算能力远远超出了CERN的资助能力。另一方面,大多数LHC的合作实验和院校都有国家级或地区级计算设施的使用权。明显的一个问题就是:这些设施能整合起来为LHC提供一个统一的计算服务吗?高速发展的广域网——能力和容量的增长伴随着成本的显著降低——使之看似可行。从那时起,LHC计算网格的发展路线就确定了。

在LHC计算网格的研发过程中,分布式系统的许多附加优势开始显现:

  • 不同的站点能保有数据的多份拷贝,保证了所有参与其中的科学家都能访问,独立于地理位置。
  • 允许多个计算中心的闲置能力得到最优化的使用,提升了效率。
  • 在多个时区都拥有计算中心使昼夜不停的监控易如反掌并保证了可靠的专业支持。
  • 不存在单点失效。
  • 维护和升级的成本是分散的,因为单个机构负责资助本地的计算资源并保有相应责任,与此同时仍然对全球化的目标作出了贡献。
  • 独立掌控资源鼓励了计算和分析的新兴手段。
  • 所谓的“人才流失”,研究员不得不离开本土以获取资源,当资源从他们桌面即可获取时,这一现象被大大地减少了。
  • 系统只需简易重新配置即可应对新的挑战,使其能随着LHC的生命周期动态的演进,能力不断成长,以满足每年采集数据增加引起的需求上升。
  • 对于在什么地点以及怎样扩充未来的计算资源留出了足够的灵活性。
  • 允许社区享用新技术带来的提升的易用性,成本效益或能源效率。

整体项目的规模给LCG团队带来了一些有趣的挑战

  • 管理需要在网格间可靠传输的庞大数据。
  • 掌管每个站点的存储空间。
  • 跟踪9000名物理学家分析数据所产生的几千万的文件。
  • 保证足够的网络带宽:主站点之间用光纤链接,而最远程的站点也需要可靠的链接。
  • 保证大量独立站点之间的安全同时最小化官僚作风,确保认证用户易于访问。
  • 维护多个站点安装的软件版本一致连贯。
  • 处理异构的硬件。
  • 提供会计机制,基于不同级别的需求和对基础设施的贡献,保证公平的访问。

对于如此巨大的分布系统来说,安全同样是个重要的挑战。据“每日电讯”报道,9月10日,当第一束粒子环绕粒子加速器呼啸而过时,来自希腊的黑客曾获取了CERN中一台LHC计算系统的片刻权限

在CERN,运营着这个庞然大物的机构,科学家们担心黑客们一旦得手将会做什么,因为他们离控制这一机器中一个庞大探测器的计算机系统仅“一步之遥”。这是个重达12500吨的磁体,长近21米,宽高15米。

如果他们进入到第二道计算机网络,他们可以关掉这大型探测器的一部分。内部人士说:“就算没人捣乱要让它们工作起来都够困难了。”

攻击造成的后果是,在写这篇文章的时候,公众仍然无法访问cmsmon.cern.ch这一站点。

驱动LCG的操作系统是Scientific Linux发行版。它是来自Fermilab(费米国家实验室)、CERN,以及世界上许多实验室和高等院校的结晶:

LHC计算网格(LCG)由分布在世界各地的近40000个数据处理CPU构成。除其它的软件外,参与进来的MAC和PC将会加载CERN定制的Scientific Linux(现在版本是Scientific Linux CERN 4)。

如果没有强劲的软件运行其上,拥有这样一个强大的网格也毫无意义。所以LCG开发者向导为所有开发和修改LCG代码的人员提供了技术信息,并解释了满足生产要求的开发过程:

软件开发过程可被分解为几个简单的步骤。
  • 在CVS创建一个新模块。
  • 编写代码和文档。
  • 彻底地测试代码。
  • 在CVS分支树里标记这一模块。
  • 联系系统构建经理将你的模块加到构建模块清单里。
  • 确保自动构建成功地创建了软件包。
  • 彻底地测试软件包。
  • 向LCG提交自动构建的软件包。
  • 修正集成和验收流程中发现的缺陷。

API是使用C/C++,Java以及Perl开发的,文档化使用了Doxygen、Javadoc或POD。网格中用到的其它软件包括:

  • The Berkeley Database Information Index (BDII)
  • gLite,用于构建网格应用的框架
  • Xen,虚拟机监控器
  • Glue 2,一个抽象的信息模型,通过模式进行表达并独立于信息系统实现
  • Gridview,一个监控和可视化工具,为LCG的诸多方面的功能提供高层次的视图(基于Java,PHP和Oracle 10g)

网格计算并不是回应LHC挑战的唯一答案,一些场合下志愿计算也大有用武之地。具体而言,志愿计算非常适合需要大量计算能力而只需相对很少数据传输的任务。2004年,CERN的IT部门饶有兴致地对SETI@home等志愿计算项目所用到的技术展开了评估。最终的努力化作了LHC@home这样一个结果,这一项目帮助用户将其机器的空闲时间贡献出来,为物理学家开发和探索粒子加速器添砖加瓦。它用到了BOINC这一志愿计算和桌面网格计算的软件平台。

LHC会导致物理学革命,是否也会导致互联网革命?编辑本段回目录


1G每秒?LHC的计算网格将革新我们通过网络处理数据的能力。

我们已经知道大型强子对撞机将成为人类历史上最大也是最贵的物理实验。相对论性的高能粒子将以前所未及的能量——质心能量最高将达到1.4*1013电子伏特——相互碰撞,并产生大量的粒子——其中可能会包括未知的新粒子——它们将被粒子探测器探测到并被记录下相应的运动轨迹。这个历史性的实验需要配套相应的海量数据收集和存储的能力,这会革新现有的数据处理方式。大型强子对撞机上每五秒钟就会产生相当于一张DVD光盘容量的数据,也就是相当于每秒产生1G的数据量。我们可以做一个简单的对比以说明这到底是怎样的一个概念:一台普通的家用电脑,在网络连接都正常的情况下,下载数据的速度一般可以达到每秒钟两兆;也就是说大型强子对撞机产生数据的速率是家用电脑正常下载速率的五百倍。正因为如此大型强子对撞机的工程师们才开发了一种新的数据处理方法,将几百万GB的数据分布式地保存于全世界的合作单位。

在1990年的时候,欧洲核子中心(CERN: European Organization for Nuclear Research)就曾经革新过我们的生活方式。在此前一年,欧洲核子中心的一位科学家Tim Berners-Lee提出了一项电子信息管理方案,在这个方案里他提出了一种称为超文本的技术,它可以使得信息在互联网上的传播变得更为便捷。不久,他和另一位合作者——欧洲核子中心的系统工程师Robert Cailliau——一起搭建了一个信息网络,来帮助欧洲核子中心的科学家们通过个人电脑更好地合作和分享信息,而不再需要将信息存储在棘手的存储设备上来传播,超文本使得使用者可以通过网页上的超连接搜索和分享文本。Berners-Lee接着顺势开发了相应的浏览编辑器,从而迅速地使得大量的用户能够使用这种新的通讯方式。到了1990年5月,欧洲核子中心的科学家们给这种新的网络技术命名为万维网(World Wide Web)。实际上,欧洲核子中心建成了世界上第一个网站http://info.cern.ch/,该网站的早期页面可以通过这个链接看到。

因此欧洲核子中心对于通过互联网管理数据并不是外行,但这个崭新的大型强子对撞机还是给科学家们带来了挑战。佐治亚理工学院(Georgia Institute of Technology)的高性能计算执行主管David Bader强调,互联网目前允许的带宽是一个巨大的瓶颈,这使得人们迫切地需要开发新的数据共享技术。虽然欧洲核子中心已经决定这些数据将通过网络提供给全世界的科学家合作研究,但是这些数据会很快使得互联网薄弱的带宽不负重荷。

这就是设计大型强子对撞机计算网格(Computing Grid)的原因。网格将处理节点上的大量数据包,其中第零层节点(Tier 0)就位于瑞士附近的欧洲核子中心。第零层节点是一个拥有一百万个高性能CPU的并行电脑网络,它被用来实时存储和处理大型强子对撞机上喷涌而出的大量原始数据。需要注意,并不是所有的粒子碰撞过程都会被探测装置记录下来,只有很小的一部分能够被捕获,即使如此产生的数据量还是很大。

第零层节点将这些原始数据通过十条带宽为10G每秒的光纤分发到下一层的节点——分布于北美、亚洲和欧洲的十个第一层级节点(Tier 1)。这使得欧洲核子中心的合作者可以分析大型强子对撞机上探测器获得的数据,比如美国纽约布鲁克海文国家实验室(BNL: Brookhaven National Laboratory)的相对论重离子对撞机(RHIC: Relativistic Heavy Ion Collider)合作组可以比较ALIC探测器上获得的数据和他们自己在相对论重离子对撞机上获得的数据。

在第一层级节点上,数据将被打包并分发到140个分布在世界各地的大学、实验室和私人公司的下一层级节点上。这时候科学家们就可以获取这些数据包,从而将这些二进制的代码转换成关于粒子能量和径迹的有用信息。

这个层级系统非常好而且可以独立工作,但是如果没有高效的软件——称为中间件(Middleware)——它还不能发挥效用。当用户获取数据的时候,这些数据可能以不同的格式分布在不同的节点上。一个称为Globus的开源中间件平台将负责搜集这些数据的信息并提供给用户,对用户而言这些数据就像在自己的电脑里一样可以随意调用。

正是这个层级系统、高速网络联接和灵巧软件的结合将会超越大型强子对撞机项目,影响并更为直接地变革我们使用网络的方式,它将使得我们可以通过网络随意地获得我们需要的东西,网络对用户而言变得更加透明了。这是一个非常值得期待的场景。

查看英文原文:LHC网格:为地球上最大的科学设施存储和分析数据
本文出自:http://www.infoq.com/cn/articles/lhc-grid;jsessionid=D8BA3E99032B66FBA34A4A076FB15E05

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
1

标签: LHC计算网格 LHC Grid

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。