LHC计算网格编辑本段回目录
大型强子对撞机(Large Hadron Collider ,LHC)粒子加速器致力于革新我们对于宇宙的认识。世界范围的LHC计算网格(LCG)项目为整个使用LHC的高能物理社区提供了数据存储与分析的基础设施。
启动于2003的LCG,目的是将分布在全世界数以百计的数据中心的成千上万的计算机整合起来,形成一个全球化的计算资源,对LHC所收集的海量数据进行存储和分析。据估计LHC每年将产生15 petabytes(1500万gigabytes)的数据。这等于一年要填满170万张双层DVD盘片!全世界数以千计的科学家需要访问和分析这些数据,所以CERN与33个不同国家的机构展开合作来运营LCG。
LHC实验产生的数据将分布到全世界,同时在CERN用磁带保有一份主备份。经过初始处理,这些数据将分发到十一个大型计算中心——包括加拿大、法国、德国、意大利、荷兰、北欧、西班牙、台北、英国,以及位于美国的两个站点——这些中心拥有足够的海量存储以支持大容积的数据片段,同时能对计算网格提供昼夜不停的支持。
这些所谓的“一级”中心将为超过120个的“二级”中心提供数据以用于专门的分析任务。科学家们可以在本国访问LHC的数据,通过本地计算集群甚至是个人PC。
LHC计算网格由三个“层级”构成,共有32个国家正式参与其中:
- Tier-0为一个主站:CERN计算中心。所有数据都将通过这一中央枢纽,但它只提供总共不到20%计算能力。
- Tier-1由十一个站点构成,位于加拿大、法国、德国、意大利、荷兰、北欧、西班牙、台北、英国,还有位于美国的两个站点。
- Tier-2由超过140个站点构成,聚集成38个联邦,覆盖了澳大利亚、比利时、加拿大、中国、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、匈牙利、意大利、印度、以色列、日本、韩国、荷兰、挪威、巴基斯坦、波兰、葡萄牙、罗马尼亚、俄罗斯、斯洛文利亚、西班牙、瑞典、瑞士、中国台北、土耳其、英国、乌克兰,以及美国。Tier-2站点将提供LHC数据处理所需能力的50%。
如若LHC加速器以理想的方式运行,那么需要为全世界超过500所研究机构和大学的近5000名参与到LHC的实验的科学家提供对实验数据的访问。除此以外,在LHC预计超过15年的生命周期里,所有的数据都须是可用的。
出于经济和技术的众多理由,都强烈需求一个分布式架构:
作出采用分布式计算的方式来管理LHC数据的首要考虑还是金钱。在1999年,当LHC数据分析计算系统设计工作开始的时候,就很快认识到了其所需求的计算能力远远超出了CERN的资助能力。另一方面,大多数LHC的合作实验和院校都有国家级或地区级计算设施的使用权。明显的一个问题就是:这些设施能整合起来为LHC提供一个统一的计算服务吗?高速发展的广域网——能力和容量的增长伴随着成本的显著降低——使之看似可行。从那时起,LHC计算网格的发展路线就确定了。
在LHC计算网格的研发过程中,分布式系统的许多附加优势开始显现:
- 不同的站点能保有数据的多份拷贝,保证了所有参与其中的科学家都能访问,独立于地理位置。
- 允许多个计算中心的闲置能力得到最优化的使用,提升了效率。
- 在多个时区都拥有计算中心使昼夜不停的监控易如反掌并保证了可靠的专业支持。
- 不存在单点失效。
- 维护和升级的成本是分散的,因为单个机构负责资助本地的计算资源并保有相应责任,与此同时仍然对全球化的目标作出了贡献。
- 独立掌控资源鼓励了计算和分析的新兴手段。
- 所谓的“人才流失”,研究员不得不离开本土以获取资源,当资源从他们桌面即可获取时,这一现象被大大地减少了。
- 系统只需简易重新配置即可应对新的挑战,使其能随着LHC的生命周期动态的演进,能力不断成长,以满足每年采集数据增加引起的需求上升。
- 对于在什么地点以及怎样扩充未来的计算资源留出了足够的灵活性。
- 允许社区享用新技术带来的提升的易用性,成本效益或能源效率。
整体项目的规模给LCG团队带来了一些有趣的挑战:
- 管理需要在网格间可靠传输的庞大数据。
- 掌管每个站点的存储空间。
- 跟踪9000名物理学家分析数据所产生的几千万的文件。
- 保证足够的网络带宽:主站点之间用光纤链接,而最远程的站点也需要可靠的链接。
- 保证大量独立站点之间的安全同时最小化官僚作风,确保认证用户易于访问。
- 维护多个站点安装的软件版本一致连贯。
- 处理异构的硬件。
- 提供会计机制,基于不同级别的需求和对基础设施的贡献,保证公平的访问。
对于如此巨大的分布系统来说,安全同样是个重要的挑战。据“每日电讯”报道,9月10日,当第一束粒子环绕粒子加速器呼啸而过时,来自希腊的黑客曾获取了CERN中一台LHC计算系统的片刻权限。
在CERN,运营着这个庞然大物的机构,科学家们担心黑客们一旦得手将会做什么,因为他们离控制这一机器中一个庞大探测器的计算机系统仅“一步之遥”。这是个重达12500吨的磁体,长近21米,宽高15米。
如果他们进入到第二道计算机网络,他们可以关掉这大型探测器的一部分。内部人士说:“就算没人捣乱要让它们工作起来都够困难了。”
攻击造成的后果是,在写这篇文章的时候,公众仍然无法访问cmsmon.cern.ch这一站点。
驱动LCG的操作系统是Scientific Linux发行版。它是来自Fermilab(费米国家实验室)、CERN,以及世界上许多实验室和高等院校的结晶:
LHC计算网格(LCG)由分布在世界各地的近40000个数据处理CPU构成。除其它的软件外,参与进来的MAC和PC将会加载CERN定制的Scientific Linux(现在版本是Scientific Linux CERN 4)。
如果没有强劲的软件运行其上,拥有这样一个强大的网格也毫无意义。所以LCG开发者向导为所有开发和修改LCG代码的人员提供了技术信息,并解释了满足生产要求的开发过程:
软件开发过程可被分解为几个简单的步骤。
- 在CVS创建一个新模块。
- 编写代码和文档。
- 彻底地测试代码。
- 在CVS分支树里标记这一模块。
- 联系系统构建经理将你的模块加到构建模块清单里。
- 确保自动构建成功地创建了软件包。
- 彻底地测试软件包。
- 向LCG提交自动构建的软件包。
- 修正集成和验收流程中发现的缺陷。
API是使用C/C++,Java以及Perl开发的,文档化使用了Doxygen、Javadoc或POD。网格中用到的其它软件包括:
- The Berkeley Database Information Index (BDII)
- gLite,用于构建网格应用的框架
- Xen,虚拟机监控器
- Glue 2,一个抽象的信息模型,通过模式进行表达并独立于信息系统实现
- Gridview,一个监控和可视化工具,为LCG的诸多方面的功能提供高层次的视图(基于Java,PHP和Oracle 10g)
网格计算并不是回应LHC挑战的唯一答案,一些场合下志愿计算也大有用武之地。具体而言,志愿计算非常适合需要大量计算能力而只需相对很少数据传输的任务。2004年,CERN的IT部门饶有兴致地对SETI@home等志愿计算项目所用到的技术展开了评估。最终的努力化作了LHC@home这样一个结果,这一项目帮助用户将其机器的空闲时间贡献出来,为物理学家开发和探索粒子加速器添砖加瓦。它用到了BOINC这一志愿计算和桌面网格计算的软件平台。
LHC会导致物理学革命,是否也会导致互联网革命?编辑本段回目录
1G每秒?LHC的计算网格将革新我们通过网络处理数据的能力。
我们已经知道大型强子对撞机将成为人类历史上最大也是最贵的物理实验。相对论性的高能粒子将以前所未及的能量——质心能量最高将达到1.4*1013电子伏特——相互碰撞,并产生大量的粒子——其中可能会包括未知的新粒子——它们将被粒子探测器探测到并被记录下相应的运动轨迹。这个历史性的实验需要配套相应的海量数据收集和存储的能力,这会革新现有的数据处理方式。大型强子对撞机上每五秒钟就会产生相当于一张DVD光盘容量的数据,也就是相当于每秒产生1G的数据量。我们可以做一个简单的对比以说明这到底是怎样的一个概念:一台普通的家用电脑,在网络连接都正常的情况下,下载数据的速度一般可以达到每秒钟两兆;也就是说大型强子对撞机产生数据的速率是家用电脑正常下载速率的五百倍。正因为如此大型强子对撞机的工程师们才开发了一种新的数据处理方法,将几百万GB的数据分布式地保存于全世界的合作单位。
在1990年的时候,欧洲核子中心(CERN: European Organization for Nuclear Research)就曾经革新过我们的生活方式。在此前一年,欧洲核子中心的一位科学家Tim Berners-Lee提出了一项电子信息管理方案,在这个方案里他提出了一种称为超文本的技术,它可以使得信息在互联网上的传播变得更为便捷。不久,他和另一位合作者——欧洲核子中心的系统工程师Robert Cailliau——一起搭建了一个信息网络,来帮助欧洲核子中心的科学家们通过个人电脑更好地合作和分享信息,而不再需要将信息存储在棘手的存储设备上来传播,超文本使得使用者可以通过网页上的超连接搜索和分享文本。Berners-Lee接着顺势开发了相应的浏览编辑器,从而迅速地使得大量的用户能够使用这种新的通讯方式。到了1990年5月,欧洲核子中心的科学家们给这种新的网络技术命名为万维网(World Wide Web)。实际上,欧洲核子中心建成了世界上第一个网站http://info.cern.ch/,该网站的早期页面可以通过这个链接看到。
因此欧洲核子中心对于通过互联网管理数据并不是外行,但这个崭新的大型强子对撞机还是给科学家们带来了挑战。佐治亚理工学院(Georgia Institute of Technology)的高性能计算执行主管David Bader强调,互联网目前允许的带宽是一个巨大的瓶颈,这使得人们迫切地需要开发新的数据共享技术。虽然欧洲核子中心已经决定这些数据将通过网络提供给全世界的科学家合作研究,但是这些数据会很快使得互联网薄弱的带宽不负重荷。
这就是设计大型强子对撞机计算网格(Computing Grid)的原因。网格将处理节点上的大量数据包,其中第零层节点(Tier 0)就位于瑞士附近的欧洲核子中心。第零层节点是一个拥有一百万个高性能CPU的并行电脑网络,它被用来实时存储和处理大型强子对撞机上喷涌而出的大量原始数据。需要注意,并不是所有的粒子碰撞过程都会被探测装置记录下来,只有很小的一部分能够被捕获,即使如此产生的数据量还是很大。
第零层节点将这些原始数据通过十条带宽为10G每秒的光纤分发到下一层的节点——分布于北美、亚洲和欧洲的十个第一层级节点(Tier 1)。这使得欧洲核子中心的合作者可以分析大型强子对撞机上探测器获得的数据,比如美国纽约布鲁克海文国家实验室(BNL: Brookhaven National Laboratory)的相对论重离子对撞机(RHIC: Relativistic Heavy Ion Collider)合作组可以比较ALIC探测器上获得的数据和他们自己在相对论重离子对撞机上获得的数据。
在第一层级节点上,数据将被打包并分发到140个分布在世界各地的大学、实验室和私人公司的下一层级节点上。这时候科学家们就可以获取这些数据包,从而将这些二进制的代码转换成关于粒子能量和径迹的有用信息。
这个层级系统非常好而且可以独立工作,但是如果没有高效的软件——称为中间件(Middleware)——它还不能发挥效用。当用户获取数据的时候,这些数据可能以不同的格式分布在不同的节点上。一个称为Globus的开源中间件平台将负责搜集这些数据的信息并提供给用户,对用户而言这些数据就像在自己的电脑里一样可以随意调用。
正是这个层级系统、高速网络联接和灵巧软件的结合将会超越大型强子对撞机项目,影响并更为直接地变革我们使用网络的方式,它将使得我们可以通过网络随意地获得我们需要的东西,网络对用户而言变得更加透明了。这是一个非常值得期待的场景。
查看英文原文:LHC网格:为地球上最大的科学设施存储和分析数据。
本文出自:http://www.infoq.com/cn/articles/lhc-grid;jsessionid=D8BA3E99032B66FBA34A4A076FB15E05