实时新闻

赛前培训|PAC走进高校-北京交通大学站

浏览次数:49 发布时间:2017-06-19 04:06:00

6月15日,并行科技在北京交通大学举办了PAC2017第八站赛前培训会,邀请到北京交通大学软件学院院长魏小涛、北京应用物理与计算数学研究所研究员袁国兴老师、英特尔大学首席讲师黄新平老师、PAC大赛主委会胡永利老师,现场主要分享了实现高性能计算与应用、基于Apache Spark的规模化分布式是深度学习框架、大赛赛题与KNL平台讲解等主题。促进高校参赛团队指导老师与学生对PAC大赛认知与理解,加强理论与实践相结合能力。从而实现以赛促教理念。

 

北京交通大学软件学院副院长魏小涛为培训会做开场致辞说道:“PAC大赛今日来到北交大,是学生们学习、接触‘天河二号’平台机会,学校自上而下都很鼓励认同学生参加PAC大赛,学校可以为参加大赛获得好成绩的学生加分保研等奖励措施。并行计算能够解决人类‘大问题’,比如气候、模拟、能源、石油勘探、可控核聚变等,均是与大家密切相关的。”

\

北京应用物理与计算数学研究所研究员袁国兴

 

 

 

回首过往发展历程,计算只能依靠人力进行分析,然而理论与实践有很多难以解决的科学问题,如大型、复杂、不可复制和危险的工程设计实验,面对安全的三大评测、预测、预报方向都很难解决。当人来拥有了计算机后,很多运算难题获得了直接解决,提升了研究能力、缩短研究过程、节约研究经费。高性能计算(high performance computing)是利用先进的计算能力去理解和解决复杂的问题。

 \

袁国兴老师说:“高性能计算与民众的生活越来越密切,迅猛发展的科学与工程要求具备高性能超算强大理论知识与实践能力,PAC大赛恰好满足产学研三者结合需求。高性能计算将人类的智能认知(对客观世界的认识、分析、理解、解释以及假定等)和高性能计算的强大计算能力有机结合,对于推动高性能计算与应用的均衡发展起到关键性。” 英特尔杯全国并行应用挑战赛(简称PAC) 旨在通过培养选拨学生“理论实践相结合”的能力,寻找最佳应用,发现顶尖优化人才,展现中国创造力。伴随人工智能发展趋势,2017赛季新增AI人工智能组别,成为国内少有的涵盖高性能计算、人工智能领域的大规模赛事。

 

 

云计算、人工智能、大数据的发展对并行计算既是机遇又是挑战。本次特邀英特尔大学黄新平首席讲师,从高性能并行计算发展趋势,到高性能并行计算性能优化基础,包括从系统级到代码级分析,常用的优化方法与工具,并行计算化实战等方面进行了深入浅出的讲解。同时,黄新平老师还介绍了Intel近年推出的众核新产品Xeon Phi KNL。

\

英特尔大学首席讲师 黄新平

 

以下引用黄新平老师独家讲解介绍:

 

 

黄新平先生介了性能调优的方法分:硬件、运行编译和代码级

 

(一)硬件级

 

性能优化的方法有很多种,第一个叫硬件级调优,就是简单粗暴直接换掉性能低的硬件,比如网卡从千兆换到万兆的,硬盘从机械的换成SSD等等。很多时候这也不失为一个好办法。

 

(二)运行级

 

另外一个所谓运行级调优,是从运行环境上调整,通过监控整个系统的性能及各项指标看问题所在,然后看能不能通过一些运行参数的调整,比如说内存的使用率非常高,可以试试在操作系统中调整内存页的大小。如果是网络带宽压力特别大,可以试试将网络包的处理程序绑定在某一个核上面。对于网络小包特别多的情况,有一些网卡带包聚合功能,等很多小包会聚合到一定的程度,再统一处理,大量减少中断数量,降低系统消耗。这些调整的成本很低,难点在于对技术人员要求很高,需要对整个系统非常熟。

 

(三)编译器级

 

还有编译器级调优,需要有代码,但是不修改代码,使用编译器的优化选项,有的时候也能够获得巨大的性能提高。比如引入自动向量化,深度优化,性能剖析指导的优化(PGO)等等。需要技术人员熟悉编译的使用,以及对优化过程的理解。

 

(四)代码级

 

还有代码级调优,也就是直接改动实现代码,改代码收益或许非常大,比如换个算法,因为有的算法就是比别的算法快很多倍,甚至快几个数量级,但是修改的难度极其大,成本极高,代码改了以后正确性要重新验证,所有测试的步骤都要做。

 

在原有串行单线程程序中,如果有比较明显的计算密集型循环,可以引入OpenMP进行并行化,结合编译器的自动向量化编译选项,可以只改极小一部分代码,获得比较大的性能收益。

 

在不断追求高性能的处理器当中,英特尔推出被称为众核处理器的一系列产品。第一代产品的代号是KNC。在全球高性能系统中,连续三年排名第一的天河二号,就使用了KNC。KNC看起来像GPU,插在PCIe 插槽上。一块KNC已经做到了1 TFlops的浮点性能, 也就是每秒钟可以执行1T条双精度浮点型运算指令。而现在的KNL一块CPU就可以达到3 TFlops。它的最高配置达到72个核,每个核4个线程,每个核有两个512位的向量处理单元。另外它的封装里面带了一个16G的近核内存,读写带宽高达400GB每秒以上,系统DDR4内存的带宽达到90GB每秒。

 

从发展趋势来看,高性能运算的机器越来越普及,越来越碎片化。最早从巨型机,分布式处理机、向量机,到最后走向集群,而现在出现GPGPU之后,单台服务器,甚至是一台笔记本的性能就可以媲美几年前看起来很强大的高性能运算中心。高性能并行计算不再远在天边,而在你的指尖。第二个变化是异构架构的普及,协处理器,GPGPU,FPGA等高性能处理部件飞入寻常百姓家。在这样两个大趋势下,高性能和并行计算编程、调优不再是一个很遥远的事情,而是一个必须每天要面对的事情。

\

现场学生提问环节

\

预祝北京交通大学参赛队伍,在PAC大赛中取得更加优异的成绩。

 

自 2013 年起,PAC 竞赛已经连续举办五届,走进 30 座城市、300 所高校,共计 3000 多名师生参与其中,“产学研三方合作的生态系统”渐趋成型。PAC 竞赛作为中国公益性比赛,其指导单位、主办单位、承办单位与支持单位始终希望高校师生不仅仅是参与比赛,更期望师生能够在比赛中获得技能提升、综合能力提高,符合当今社会复合型人才发展需求,实现“以赛促学、以赛促教”的宗旨。

 

PAC2017 竞赛报名唯一官方报名方式,关注微信公众号“ PAC China-HPC ”进行报名,或者长按识别二维码完成报名。(关注微信公众号,了解更多演讲资讯)

\

上一条:Intel Xeon Phi 并行编程基础培训-北京站第二场 下一条:赛前培训|PAC走进高校-南阳理工学院站