云计算真能改变科学计算?
发布时间:2016-04-21 点击数:2592
内容摘要: 日前,云计算专家汤姆·威尔基提供了两个例证,科学数据集的增长推动向云计算进军,另外,这将深刻地改变科学计算。
日前,云计算专家汤姆·威尔基提供了两个例证,科学数据集的增长推动向云计算进军,另外,这将深刻地改变科学计算。
今年一月初,伦敦韦尔科姆基金会邀请生命科学领域的一些研究人员参会,对于一个新的私有学术云进行数据分析初步的结果进行评定,而这个私有学术云是由七个学术研究机构组成的emedlab联盟成立的。而几个月前在大西洋的另一边,美国国家科学基金会(NSF)宣布将为Aristotle云联盟中的三个大学的私人学术云连续5年赠予500万美元的研究资金。
私有云和联合云都试图解决同样的两个科学问题:如何利用学术机构有限的预算,为分析现代科学所产生的巨大的数据集提供必要的计算能力?以及如何能够有效地共享这些数据集,而不必重复这些数据集?
这两个项目举例说明行业人士近期对高性能云计算的兴趣大增,而在《科学计算世界》的二月和三月号的专题文章中描述:“HPC终于登上云端”。
伦敦大学学院研究平台总监兼emedlab项目经理杰克·帕拉斯表示:“很多生物医学工程人员想要访问相同的核心数据集。例如,国际癌症基因组协会的数据集就达到了2PB字节,我们不希望出现如此大规模的数据集在不同的组织复制的情况。”
来自患者或志愿者的医疗研究数据是敏感的,有着相关法律和道德的限制,而这些数据在物理上来说谁都可以访问。只是移动PB级的数据本身就是一个挑战,需要大量时间。帕拉斯估计,即使采用一个由英国联合学术网(Janet)提供的专用万兆网的快速连接,它仍然需要一个月的时间才能得到来自欧洲生物信息学研究所的1PB的emedlab结构数据。而复制非常大的数据集,不管是否迁移动副本,这个工作量很快就变得十分繁重。
让计算接近数据
eMedLab项目团队为一个非常紧密耦合的计算基础设施创建背后的驱动程序,其中的一部分就是创建一个PB级数据存储系统,对于这种方式,帕拉斯解释道:“我们可以容纳这些大的数据集,并让他们的多个研究小组对这些数据的不同的问题进行分析。”
该联盟选择了云解决方案,而没有采用一个简单的HPC集群。帕拉斯继续说,“因为许多不同的研究小组进行了设想,要求资源针对不同的问题数据集,使用完全不同类型的代码和分析管道。随着云计算的解决方案的采用,生物信息学研究人员可以建立自己的虚拟机,这是他们的首选管道套件,通过他们的台式机和端口进入eMedLab”。为了满足用户要求尽可能多的计算和分析需要,采用的核心处理器的数量高达6000个。
Aristotle云联盟面临着与之惊人相似的挑战。康奈尔大学的高级计算中心主任(CAC)和联合项目负责人戴维·利夫卡表示:“大数据就是大美元。人们必须有一个数据管理计划,并且说明他们将如何分享这些数据并使之有效,人们正为此而努力。在不同的学科中,特别是基因组学和天文学,它们都被埋藏在数据中。他们没有共享数据,而这也不只是复制其数据的一个很好的方式,当你谈论到复制是PB级数据是很难的。如果能在源代码中分析数据而不用移动数据,那是一个非常符合成本效益的模型,使得它更容易管理。”
研究人员驱动
部分的理论基础也让研究人员成为技术驱动的主要因素:“我们认为,如果采取学术合作,推动数据共享,那么需要基础设施来支持,从而联合。如果你有这么多的数据,你就需要为多个机构成员共享资源。”
eMedLab的研究机构大多位于伦敦,其中包括:伦敦大学学院;伦敦大学玛丽女王学院;伦敦卫生与热带医学学院;伦敦大学国王学院;弗兰西斯克里克所;桑格研究所和欧洲生物信息研究所。商业数据中心提供商的物理云位于伦敦西区的斯劳镇。硬件是由英国的集成商OCF公司的设备部署在一起,他们的工作也延伸到了OpenStack软件。“OCF公司一直在支持社区的工作。”帕拉斯说。
Aristotle云联盟的地理位没有这样的紧凑,因为这些机构从美国东海岸横跨到西海岸:它是由康奈尔大学(Cu),布法罗大学(UB),加利福尼亚大学,圣塔巴巴拉分校(UCSB)共同承担的。每个站点都有自己的云计算基础设施,“因此它是一个真正的联盟,其硬件是真正的分布式部署。”利夫卡说。
像emedlab项目,Aristotle联盟一般都有万兆连接的网络,“我可以告诉你,我们已经在研究和思考未来的10万兆的网络连接技术。”利夫卡说,该联盟的Globus公司主要采用在线移动数据,其部分原因是其可靠性,也是为了用户和访问的方便性。该联盟正在使用InCommon,这是美国教育和科研标准的信任框架,允许访问在线资源共享,并以此来验证用户身份,为Globus提供支持。“因此,通过登录,用户有一个标准的方式来移动数据,为每个云采用身份验证的标准方法和方式来启动虚拟机,它只是成为学习如何做的事情,”利夫卡说。
“这一切的云计算的好处是,如果你有一个HPC集群和大家分享,别人的HPC集群也可以共享,你可以使用他们的软件堆栈。每次你想改变它,可以为你提供需要的东西,你必须要和每个人有一个完全连接,它只是没有形成规模。”但是,利夫卡继续说,“在云计算,你只需在自己的虚拟机上就获得自已的分析数据环境。”
他强调,目的是为了让研究人员做事情更加容易:“我们当地的云总是会很谦虚,但你希望能够让它尽可能容易移动,而你不想阻碍研究人员。所以,你要为研究者具有优化其预算的能力;优化他们的时间,优化他们对数据的访问。在一个标准的HPC集群上做这些,是非常困难的事情。”
商业云的不同观点
尽管有相似之处,但两者之间有很大的区别,这其中的原因部分来自地理位置,也有不同的法律约束。特别是商业云对此的态度。
来自英国的医学研究理事会的拨款原来集中于三种疾病;癌症,心血管疾病,以及罕见的疾病。帕拉斯指出eMedLab的架构是为这种类型的医疗和生物信息学进行的专门的研究和设计。她继续说:“商业云提供商架构有问题,这是非常大的商品,没有对我们在学术界使用的专门结构进行优化。此外,由于欧洲的法律限制,存在的数据要物理保持在所在国,并在组织的控制下,这是受欧盟数据立法保护,这使得我们的商业供应商在法律上十分敏感。”
另一个问题是,考虑可以进入商业云计算的数据集相关的定价和速度:商业云提供商的数据出口收费以及分析。数据出口收费是目前研究小组面临的问题;而如果移动数据,那是相当重要的。”帕拉斯说。然而,她并没有完全排除这种情况:“我不是说我们不会进入商业云,我当然认为那里是有价值的。”
Eucalyptus或OpenStack?
利夫卡更看好商业云对科学的潜力。首先,Aristotle云采用了Helion公司的Eucalyptus,这是来自惠普企业(HPE)的软件,而不是OpenStack的(eMedLab已经采用)。其原因是,Eucalyptus是亚马逊网络服务(AWS)云软件的开源实现。利夫卡说:“我们很清楚,亚马逊是一个公共服务,人们想采用Eucalyptus是因为其百分之百的兼容。”
Eucalyptus允许用户集中计算,存储和网络资源,或者动态扩展,因为应用程序工作负载的变化满足所有的云启用软件的功能。任何人都可以免费下载该软件,并建立与AWS的API兼容的私有云和混合云的云。可从HPE获得可选的咨询服务。
三层联合云模型
利夫卡设想了一个三层云模型:“首先在自己的数据中心运行;然后,当自己的数据中心饱和的,再到合作的伙伴运行;然后,再达到饱和时,就移动到一个NSF云或亚马逊云。”利夫卡说,“如果你能保持充分利用一个资源,并且在自己的数据中心运营更加做便宜;但是如果你不能,最好把它外包出去。就像你并不是每天开车去上班,大部分时间是闲置的,那为什么买一辆车?但是如果你每天开车去上班,那么买一辆车比租一辆车要便宜很多。”
Aristotle项目已经从康奈尔大学的早期实验发展成为一个中等规模的云,成为人们在康奈尔大学真正的HPC集群的互补的资源。”但是有一个问题,即使是一流大学,如康奈尔大学,也会对计算资源的资本开支进行限制。如果多个机构的联合云结合在一起,资金成本可能会大幅增加。但是,他指出:“当人们不再采用亚马逊云时,那是因为他们比我们需要利用更多的资源。但是,我们可以提供,我们可以保持资源的规模,并提供更好的价格,所以我们可以很容易为用户挑选最符合其成本效益的价格/性能的解决方案。“Aristotle项目的合作伙伴UB和UCSB开发,将帮助科学家在何时使用他们的机构之外的联合资源时作出明智的决定。
英国eMedLab项目和美国国家科学基金会资助Aristotle云的重点是其数据密集型应用,利夫卡相信针对计算密集型的工作也将有很多机会。然而,帕拉斯承认商业云提供商是不会采用紧耦合的基础设施为核心业务,因为硬件的溢价,他们不会获得足够的业务来恢复它。他们将直接放弃服务器。这就是市场的成交量,也是他们的赌注,但是,他对此表示乐观,并认为研究界会适应它的计算,以适应他们所拥有的计算资源类型的方式。
“时间到科学”才是最重要的
利夫卡描绘了HPC未来愿景,并认为商用服务器将代替专业组件。“回溯到上世纪80年代,当每个人都在买自己喜欢的超级计算机时。然后,英特尔公司走了出来,说:‘你可以建立一个Beowulf集群,它会做几乎所有的大型机所能做到的一切。’人们嘲笑地说:‘这行不通。你必须有一个思维连接机器;或者你得有一个IBM公司的SP。’而如今再看看我们现在的情况。这一行业带动了市场的数量和研究的调整,而这样的研究才是非常好的。”
利夫卡表示,如今也将看到一个类似的模式转变的,原因是研究者重要的是“科学的时间”,而不再用时间的长度来衡量的计算时间。“如果你的计算任务可以在一个国家超级计算中心排队,在你的工作运行队列需要五天的时间,然后你获得50000个核心处理器运转,你的工作时间是几个小时,这是了不起的。但是如果你现在能得到50000个核心的话,则无需等待,而你的工作需要运行较长时间,但它仍然会在结束前,你的其他工作将在超级计算机上启动。”
“时间到科学是最重要的,”他总结说,“在一个紧密耦合方式使用,并不知道采用了多少个核心处理器。研究人员将进行调整。他们关心的是结果,最好的价格,以及在队列中的最少的时间。”
他并非暗示紧密耦合的超级计算机是多余的:“真正需要的高端的东西的人都将仍然需要它,他们将在国家超级计算中心运行它。但是,很少有学术机构将能够负担得起这个系统的费用,除非是得到了美国联邦政府的资助或被游戏系统采用。”
利夫卡认为,这将迫使大多数用户找出一种新的方式实施科学计算,因为这些人并没有国家资助的计算资源。“这是我第一次看到管理IT驱动的发展趋势,而不是研究出来的。人们对企业应用和代码使用云基础设施的需求越来越高。当他们做到这一点,研究界开始流行开来,并看到了效益。我认为这将会改变游戏规则。”
然而,这种革命不会很快发生,利夫卡说,“从英特尔的笔记本电脑到英特尔的超级计算机并不是在一天中所实现的。我认为人们将对超级计算机有一个巨大的需求,但这是一个互补的资源,将为那些最需要它的研究人员腾出使用超级计算机的时间。”他总结道:“如果每个人都有自己的时间进行科学完善,那么人人都将是赢家。
日前,云计算专家汤姆·威尔基提供了两个例证,科学数据集的增长推动向云计算进军,另外,这将深刻地改变科学计算。
今年一月初,伦敦韦尔科姆基金会邀请生命科学领域的一些研究人员参会,对于一个新的私有学术云进行数据分析初步的结果进行评定,而这个私有学术云是由七个学术研究机构组成的emedlab联盟成立的。而几个月前在大西洋的另一边,美国国家科学基金会(NSF)宣布将为Aristotle云联盟中的三个大学的私人学术云连续5年赠予500万美元的研究资金。
私有云和联合云都试图解决同样的两个科学问题:如何利用学术机构有限的预算,为分析现代科学所产生的巨大的数据集提供必要的计算能力?以及如何能够有效地共享这些数据集,而不必重复这些数据集?
这两个项目举例说明行业人士近期对高性能云计算的兴趣大增,而在《科学计算世界》的二月和三月号的专题文章中描述:“HPC终于登上云端”。
伦敦大学学院研究平台总监兼emedlab项目经理杰克·帕拉斯表示:“很多生物医学工程人员想要访问相同的核心数据集。例如,国际癌症基因组协会的数据集就达到了2PB字节,我们不希望出现如此大规模的数据集在不同的组织复制的情况。”
来自患者或志愿者的医疗研究数据是敏感的,有着相关法律和道德的限制,而这些数据在物理上来说谁都可以访问。只是移动PB级的数据本身就是一个挑战,需要大量时间。帕拉斯估计,即使采用一个由英国联合学术网(Janet)提供的专用万兆网的快速连接,它仍然需要一个月的时间才能得到来自欧洲生物信息学研究所的1PB的emedlab结构数据。而复制非常大的数据集,不管是否迁移动副本,这个工作量很快就变得十分繁重。
让计算接近数据
eMedLab项目团队为一个非常紧密耦合的计算基础设施创建背后的驱动程序,其中的一部分就是创建一个PB级数据存储系统,对于这种方式,帕拉斯解释道:“我们可以容纳这些大的数据集,并让他们的多个研究小组对这些数据的不同的问题进行分析。”
该联盟选择了云解决方案,而没有采用一个简单的HPC集群。帕拉斯继续说,“因为许多不同的研究小组进行了设想,要求资源针对不同的问题数据集,使用完全不同类型的代码和分析管道。随着云计算的解决方案的采用,生物信息学研究人员可以建立自己的虚拟机,这是他们的首选管道套件,通过他们的台式机和端口进入eMedLab”。为了满足用户要求尽可能多的计算和分析需要,采用的核心处理器的数量高达6000个。
Aristotle云联盟面临着与之惊人相似的挑战。康奈尔大学的高级计算中心主任(CAC)和联合项目负责人戴维·利夫卡表示:“大数据就是大美元。人们必须有一个数据管理计划,并且说明他们将如何分享这些数据并使之有效,人们正为此而努力。在不同的学科中,特别是基因组学和天文学,它们都被埋藏在数据中。他们没有共享数据,而这也不只是复制其数据的一个很好的方式,当你谈论到复制是PB级数据是很难的。如果能在源代码中分析数据而不用移动数据,那是一个非常符合成本效益的模型,使得它更容易管理。”
研究人员驱动
部分的理论基础也让研究人员成为技术驱动的主要因素:“我们认为,如果采取学术合作,推动数据共享,那么需要基础设施来支持,从而联合。如果你有这么多的数据,你就需要为多个机构成员共享资源。”
eMedLab的研究机构大多位于伦敦,其中包括:伦敦大学学院;伦敦大学玛丽女王学院;伦敦卫生与热带医学学院;伦敦大学国王学院;弗兰西斯克里克所;桑格研究所和欧洲生物信息研究所。商业数据中心提供商的物理云位于伦敦西区的斯劳镇。硬件是由英国的集成商OCF公司的设备部署在一起,他们的工作也延伸到了OpenStack软件。“OCF公司一直在支持社区的工作。”帕拉斯说。
Aristotle云联盟的地理位没有这样的紧凑,因为这些机构从美国东海岸横跨到西海岸:它是由康奈尔大学(Cu),布法罗大学(UB),加利福尼亚大学,圣塔巴巴拉分校(UCSB)共同承担的。每个站点都有自己的云计算基础设施,“因此它是一个真正的联盟,其硬件是真正的分布式部署。”利夫卡说。
像emedlab项目,Aristotle联盟一般都有万兆连接的网络,“我可以告诉你,我们已经在研究和思考未来的10万兆的网络连接技术。”利夫卡说,该联盟的Globus公司主要采用在线移动数据,其部分原因是其可靠性,也是为了用户和访问的方便性。该联盟正在使用InCommon,这是美国教育和科研标准的信任框架,允许访问在线资源共享,并以此来验证用户身份,为Globus提供支持。“因此,通过登录,用户有一个标准的方式来移动数据,为每个云采用身份验证的标准方法和方式来启动虚拟机,它只是成为学习如何做的事情,”利夫卡说。
“这一切的云计算的好处是,如果你有一个HPC集群和大家分享,别人的HPC集群也可以共享,你可以使用他们的软件堆栈。每次你想改变它,可以为你提供需要的东西,你必须要和每个人有一个完全连接,它只是没有形成规模。”但是,利夫卡继续说,“在云计算,你只需在自己的虚拟机上就获得自已的分析数据环境。”
他强调,目的是为了让研究人员做事情更加容易:“我们当地的云总是会很谦虚,但你希望能够让它尽可能容易移动,而你不想阻碍研究人员。所以,你要为研究者具有优化其预算的能力;优化他们的时间,优化他们对数据的访问。在一个标准的HPC集群上做这些,是非常困难的事情。”
商业云的不同观点
尽管有相似之处,但两者之间有很大的区别,这其中的原因部分来自地理位置,也有不同的法律约束。特别是商业云对此的态度。
来自英国的医学研究理事会的拨款原来集中于三种疾病;癌症,心血管疾病,以及罕见的疾病。帕拉斯指出eMedLab的架构是为这种类型的医疗和生物信息学进行的专门的研究和设计。她继续说:“商业云提供商架构有问题,这是非常大的商品,没有对我们在学术界使用的专门结构进行优化。此外,由于欧洲的法律限制,存在的数据要物理保持在所在国,并在组织的控制下,这是受欧盟数据立法保护,这使得我们的商业供应商在法律上十分敏感。”
另一个问题是,考虑可以进入商业云计算的数据集相关的定价和速度:商业云提供商的数据出口收费以及分析。数据出口收费是目前研究小组面临的问题;而如果移动数据,那是相当重要的。”帕拉斯说。然而,她并没有完全排除这种情况:“我不是说我们不会进入商业云,我当然认为那里是有价值的。”
Eucalyptus或OpenStack?
利夫卡更看好商业云对科学的潜力。首先,Aristotle云采用了Helion公司的Eucalyptus,这是来自惠普企业(HPE)的软件,而不是OpenStack的(eMedLab已经采用)。其原因是,Eucalyptus是亚马逊网络服务(AWS)云软件的开源实现。利夫卡说:“我们很清楚,亚马逊是一个公共服务,人们想采用Eucalyptus是因为其百分之百的兼容。”
Eucalyptus允许用户集中计算,存储和网络资源,或者动态扩展,因为应用程序工作负载的变化满足所有的云启用软件的功能。任何人都可以免费下载该软件,并建立与AWS的API兼容的私有云和混合云的云。可从HPE获得可选的咨询服务。
三层联合云模型
利夫卡设想了一个三层云模型:“首先在自己的数据中心运行;然后,当自己的数据中心饱和的,再到合作的伙伴运行;然后,再达到饱和时,就移动到一个NSF云或亚马逊云。”利夫卡说,“如果你能保持充分利用一个资源,并且在自己的数据中心运营更加做便宜;但是如果你不能,最好把它外包出去。就像你并不是每天开车去上班,大部分时间是闲置的,那为什么买一辆车?但是如果你每天开车去上班,那么买一辆车比租一辆车要便宜很多。”
Aristotle项目已经从康奈尔大学的早期实验发展成为一个中等规模的云,成为人们在康奈尔大学真正的HPC集群的互补的资源。”但是有一个问题,即使是一流大学,如康奈尔大学,也会对计算资源的资本开支进行限制。如果多个机构的联合云结合在一起,资金成本可能会大幅增加。但是,他指出:“当人们不再采用亚马逊云时,那是因为他们比我们需要利用更多的资源。但是,我们可以提供,我们可以保持资源的规模,并提供更好的价格,所以我们可以很容易为用户挑选最符合其成本效益的价格/性能的解决方案。“Aristotle项目的合作伙伴UB和UCSB开发,将帮助科学家在何时使用他们的机构之外的联合资源时作出明智的决定。
英国eMedLab项目和美国国家科学基金会资助Aristotle云的重点是其数据密集型应用,利夫卡相信针对计算密集型的工作也将有很多机会。然而,帕拉斯承认商业云提供商是不会采用紧耦合的基础设施为核心业务,因为硬件的溢价,他们不会获得足够的业务来恢复它。他们将直接放弃服务器。这就是市场的成交量,也是他们的赌注,但是,他对此表示乐观,并认为研究界会适应它的计算,以适应他们所拥有的计算资源类型的方式。
“时间到科学”才是最重要的
利夫卡描绘了HPC未来愿景,并认为商用服务器将代替专业组件。“回溯到上世纪80年代,当每个人都在买自己喜欢的超级计算机时。然后,英特尔公司走了出来,说:‘你可以建立一个Beowulf集群,它会做几乎所有的大型机所能做到的一切。’人们嘲笑地说:‘这行不通。你必须有一个思维连接机器;或者你得有一个IBM公司的SP。’而如今再看看我们现在的情况。这一行业带动了市场的数量和研究的调整,而这样的研究才是非常好的。”
利夫卡表示,如今也将看到一个类似的模式转变的,原因是研究者重要的是“科学的时间”,而不再用时间的长度来衡量的计算时间。“如果你的计算任务可以在一个国家超级计算中心排队,在你的工作运行队列需要五天的时间,然后你获得50000个核心处理器运转,你的工作时间是几个小时,这是了不起的。但是如果你现在能得到50000个核心的话,则无需等待,而你的工作需要运行较长时间,但它仍然会在结束前,你的其他工作将在超级计算机上启动。”
“时间到科学是最重要的,”他总结说,“在一个紧密耦合方式使用,并不知道采用了多少个核心处理器。研究人员将进行调整。他们关心的是结果,最好的价格,以及在队列中的最少的时间。”
他并非暗示紧密耦合的超级计算机是多余的:“真正需要的高端的东西的人都将仍然需要它,他们将在国家超级计算中心运行它。但是,很少有学术机构将能够负担得起这个系统的费用,除非是得到了美国联邦政府的资助或被游戏系统采用。”
利夫卡认为,这将迫使大多数用户找出一种新的方式实施科学计算,因为这些人并没有国家资助的计算资源。“这是我第一次看到管理IT驱动的发展趋势,而不是研究出来的。人们对企业应用和代码使用云基础设施的需求越来越高。当他们做到这一点,研究界开始流行开来,并看到了效益。我认为这将会改变游戏规则。”
然而,这种革命不会很快发生,利夫卡说,“从英特尔的笔记本电脑到英特尔的超级计算机并不是在一天中所实现的。我认为人们将对超级计算机有一个巨大的需求,但这是一个互补的资源,将为那些最需要它的研究人员腾出使用超级计算机的时间。”他总结道:“如果每个人都有自己的时间进行科学完善,那么人人都将是赢家。
上一篇:数据中心的基本运维体系
下一篇:云计算在快速革命整个ICT世界