日前,国防科技大学官方新闻宣布,由国防科技大学牵头研制的“天河三号E级原型机系统”已在国家超级计算天津中心完成研制部署,并于22日顺利通过项目课题验收。未来2-3年内,国防科技大学团队将打造出全自主的具有国际领先水平的新一代“天河三号”E级超级计算机。
E级超算,是指每秒钟运算一百亿亿次的超级计算机。自从今年6月份美国SUMMIT超算超过中国的神威太湖之光,登顶全球最快超算TOP500榜单之后,中国,美国,日本和欧洲,这些在超算领域最为领先的国家和地区,纷纷加快了研制速度。其中,中美日三国最为领先,目前都计划在2021年左右研发完毕,而欧洲的计划则要落后几年。
就在国防科技大学公布天河三号原型机进度之前一个礼拜,TOP500网站的总编辑发表了一篇典型西方视角的预测文章。文章总结了前一段时间全球超算领域最大的三个新闻,一个是日本富士通公司开发Post-K(后京级)超算的进度,一个是美国SUMMIT系统重新夺回TOP500榜单的冠军,第三个居然是引述中国的一位参加E级超算的学者的话称:中国的超算计划需要推后大约一年,从领先美日约一年推后到和美日同一年完成。而TOP500总编辑给出的理由是:中国需要从三种国产CPU之中选出一种,需要做更加详尽的评估,所以才需要推迟。文章中提到的中国的三种国产CPU是:上海高性能集成电路设计中心的申威系列,由国防科技大学创业公司飞腾公司生产的ARM架构的飞腾系列,以及天津海光公司依靠美国AMD公司授权,使用ZEN内核的X86架构处理器。
但TOP500总编辑没有意识到,中国在超级计算机项目的研发上从来都是多种方案齐头并进,互为备份,以降低风险的。并不存在需要从三种国产CPU种选出一种再进行研发的惯例。
2018年5月19日,国家超算天津中心展示了天河三号原型机,预计在2018年底投入使用,而根据国防科大日前的这则新闻,实际上目前的进度已经提前。天河三号的全配置主机计划在2020年投入使用,性能计划为1EFlops。 天河三号将使用飞腾FT2000plus或者后续型号的CPU,以及国防科技大学的Matrix2000plus或者后续型号的加速器。
2018年7月神威E级原型机落户于国家超算济南中心,还需要三年左右的研发时间,将在2021年正式投入使用。神威的CPU肯定是申威系列的最新型号,加速器可能也会采用Matrix2000plus或者其后续型号。
2016年7月4日,中科曙光在其举办的“2016中科曙光技术创新大会(IDIC2016)”上宣布,由其牵头的E级超算原型系统项目正式发布,在核心技术方面,曙光介绍了超融合自适应并行处理体系结构(HCAPP)和全浸没式相变液冷技术(整台超算浸没在冷却液中),但对于所采用的CPU和加速器并没有更多消息透露。外界猜测曙光可能会采用中科院体系内研发的CPU和加速器(比如龙芯系列)。曙光E级的最终部署时间也将会在2020年以后。
事情要从天河三号的上一代机型,天河2号说起。天河系列超算,从天河1号开始就一直使用美国公司制造的CPU和加速器芯片。比如,天河2号使用Intel Xeon E5 CPU和Intel Xeon Phi加速器芯片,而天河2A仍然使用Intel Xeon E5 CPU,加速器芯片换成了国产Matrix2000。最重要的是,天河2号从2013年6月登顶TOP500排行榜,成为世界上运算速度最快的超算,一直到2016年6月让位于神威太湖之光,整整“霸榜”了三年之久,美国的面子挂不住了。于是在2015年4月9日,美国商务部宣布对中国的四家超算机构禁运Intel的至强Xeon处理器和Xeon Phi加速器。受到禁运的四家中国机构是:国家超级计算长沙中心,国家超级计算广州中心,国家超级计算天津中心和国防科技大学。对中国其他企业和机构没有禁运。
美国不是禁运吗?那好,天河三号从CPU(飞腾),到加速器芯片(Matrix2000plus),到互联接口芯片,路由芯片,全都采用国产货;新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统全都是国产原创设计;系统操作、并行开发、应用支撑和综合管理等软件分系统全面国产可控。而天河三号将要和美国的Aurora超算,作为人类第一批E级超算,争夺TOP500的冠军。这个脸打得狠不狠?(实际上在美国禁运之后,使用国产申威CPU的神威太湖之光又“霸榜”了两年,直到上个月才让位于美国的SUMMIT超算,也够打脸的了)
美国更是搬起石头砸了自己的脚
目前TOP500排名第一的美国SUMMIT超算的运算速度约为每秒12亿亿次,约为E级超算的12%。SUMMIT系统的升级空间有限。
美国的第一台E级超算名为Aurora (原计划运算速度为18.5亿亿次), 将安装在Argonne 国家实验室,原计划在2018年底投入使用,后被推迟到2021年投入使用,性能也将提升到(1E Flops,即100亿亿次)。戏剧性的是Aurora被推迟的原因:由于其原计划使用Intel Xeon CPU和Xeon Phi加速器,其中Intel 的Xeon Phi加速器已经在2017年8月停产,而基于10nm制程工艺的下一代Xeon Phi加速器,Intel目前还根本没有计划。
那么Intel为什么停产Xeon Phi加速器?我们可以来列一列事实:
中国的天河2号分别使用了3.2万颗Xeon E5 CPU和4.8万颗Xeon Phi加速器。
对于Xeon Phi的销量,Intel曾表示过2016年的目标是10万颗出货量。
可见,单单我国的天河2号就达到了Intel约一半的Xeon Phi销量。
2015年4月9日,美国商务部宣布对中国的四家超算机构禁运Intel的至强Xeon处理器和Xeon Phi加速器。
2016年6月18日,Xeon Phi 7290/7250加速器价格直接腰斩。到2017年8月24日,Intel 宣布Xeon Phi 7200系列协处理器加速卡进入停产退市进程。
笔者毫不怀疑,Intel停产Xeon Phi产品线的重要原因之一是失去了中国超算的市场。
美国真是搬起石头砸了自己的脚。Aurora未来的技术方案还有待观察。
未来E级超算的竞争,也是核心处理器的竞争
美国的SUMMIT系统使用的是IBM Power9处理器和Nvidia Tesla加速器。第一台E级超算的处理器和加速器方案还有待观察。
日本的第一台E级超算将是富士通公司的Post-K系统,使用富士通公司设计的ARM众核处理器。
欧洲国家也为下一代超算在开发国产的处理器,基于ARM架构和RISC-V架构。这项工作的推动力量是欧洲处理器计划(EPI)。该计划是一个大型计划的一部分,目标是发展不依赖于美国芯片制造商的超算制造能力,尤其是要摆脱对Intel, AMD,Nvidia和IBM的依赖。EPI计划最近开始实施,目标是在2020年前制造出pre-E级的处理器版本。
需要指出的是,欧洲和日本的半导体企业均没有目前最先进的半导体制程技术。全球逻辑器件(不包括闪存和内存)的最先进制程工艺掌握在四家企业手中:台湾的台积电,韩国的三星,美国的Intel和 Global Foundries。 这四家企业的逻辑器件制程工艺已经在向10纳米以下发展。而欧洲和日本的半导体企业生产逻辑器件的制程工艺目前还停留在28纳米以上。这意味着,欧洲和日本公司设计的先进处理器,他们自己也制造不了,必须由台积电,三星或者Global Foundries代工。
值得欣慰的是,中国的中芯国际正在向14纳米的制程工艺进军,将于2019年上半年量产。这意味着我国的超算芯片将会使用14纳米的工艺(之前的申威,飞腾CPU和Matrix2000加速器均由国产28纳米以上的工艺生产,或者由海外企业代工生产),我国超算芯片的性能将会迎来一次飞跃。
对于关注超算领域的人来说,2020年和2021年将会是非常热闹的两年。我们将目睹人类首批E级超算投入使用。而在这场竞赛中,中国的超算将是第一名的最有力的竞争者。