格致斯创迅奇(北京)科技有限公司举办《2018GPU高性能计算实战培训班》

2018年5月11日 8:30 至 2018年5月13日 17:30 ,格致斯创迅奇(北京)科技有限公司在 北京·北京市海淀区职业学校东校区·北四环中路275号举办《2018GPU高性能计算实战培训班》,会议大约有200人参加。

会议通知


2018GPU高性能计算实战培训班

2018GPU高性能计算实战培训班宣传图

前言:

深度学习DL和人工智能AI成为当下最炙手可热的技术趋势,将成为技术行业基础设施的核心组成部分。深度学习训练需要大量的计算资源,GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜(达到同样的计算能力GPU一般便宜10倍),而且计算更加密集(一台服务器可以搭配1/2/4/8/16块GPU),深度学习时代,训练过程,GPU为主CPU为辅。主流的深度学习评测benchmark,都聚焦用GPU来做测试,用CPU对比已经没有太大意义。

GPU的价值不止体现在深度学习,在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。GPU 高性能计算程序设计最大限度的利用硬件资源,提高了计算能力,降低时间成本,加速研发进度。

深度学习网络的计算里,最关键的是两种计算:如果是一个全连接层,它的计算主要是矩阵乘法;如果你是卷积层,核心计算是卷积计算。主流的深度卷积网络里,超过80%的计算源于卷积计算,一般的深度网络在最后一两层才用到全连接层,所以这个卷积操作其实是深度学习里最关键的核心技术。

我们针对深度学习的计算,有一套完整的解决方案,cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库,包含完整的矩阵乘法和卷积计算的实现,但并不开源。

想搞清楚如何优化矩阵乘法和卷积吗?如何用CPU+GPU加速你的程序?学完本次课程,你会找到答案。

关键字:

AI(Artificial Intelligence,人工智能)

DL(Deep Learning,深度学习)

ML(Machine Learning,机器学习)

高性能计算(High Performance Computing, HPC)

并行计算(Parallel Computing)

超级计算(supercomputing)

E级计算(Exascale computing)

异构计算(Heterogeneous computing)

GPU通用计算(GPGPU,General Purpose GPU,CUDA,OpenCL,OpenACC)

并行计算基础(MPI,OpenMP,Pthread)

加速卡(CPU,GPU,APU,FPGA,MIC)

专业要求:

Linux/vim常用命令

能写简单的C/C++

基本的计算机基础和数学基础

格致斯创迅奇(北京)科技有限公司

格致斯创(北京)科技有限公司成立于2014年,公司地址位于北京市西城区,地理位置优越。作为中国高性能计算和材料计算模拟的新生代,公司依托国家级超级计算中心与高等院校等各类研究机构的强大科研力量,为中国的学术和产业研究机构提供包括计算资源、科研咨询、技术攻关、软件研发等全方位的技术服务。在当今全球范围兴起“云计算”、“大数据”等新型研究方式的大环境下,公司以高性能超级计算资源和材料学计算模拟为核心服务,以推动我国的科技创新为宗旨,为开拓相关技术在国内的应用领域而努力。

会议日程 (最终日程以会议现场为准)


8:30--11:30                                

高性能计算基础          

1、并行计算的应用场景和实际意义(战略、经济和成本);

2、并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统;

3、性能分析模型:如何测量并行性能和扩展性;

4、CPU/GPU体系结构对比介绍;


13:30--17:00                              

MPI编程入门 

1、 MPI编程基本概念;

2、 基本编程语句; 

3、 主要点到点通信函数;

4、 上机实验hello world; 


MPI编程进阶

1、 自定义新的数据类型;

2、 集合通信方法;

3、 通信域和虚拟拓扑 ;

4、 上机实验:计算圆周率;

8:30--11:30      

多核编程OpenMP和Pthread

1、 Pthread编程;

2、 OpenMP多线程编程;

3、 上机实验:分别实现计算圆周率;

 

13:30--17:00    

GPU编程优化进阶

1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比; 

2、 CUDA优化:线程组织调度,分支语句,访存优化,数据传输,原子操作;

3、 GPU并行计算模式分析:分析调试:parallel nsight,visual profiler,cuda-gdb;

4、 上机实验:Helloworld,向量加,cuBLAS,cuFFT ;

5、 上机实验:矩阵乘,直方图,卷积,规约;

8:30--11:30      

OpenACC编程基础与优化进阶

1、 OpenACC基础:概念,与CUDA区别,编译器,生态;

2、 OpenACC开发环境搭建配置;

3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化;

3.1判断并行性:Profile工具pgprof;

3.2并行化表达:引导关键字Kernerls和Parallel Loop;

3.3显式管理数据的拷贝:引导关键字Data;

3.4优化:统一内存管理,线程并行层级,collapse,tile;

4、OpenACC上机实操

4.1. Hellow world; 

4.2.矢量点乘;


多GPU开发

1、 多GPU编程(混合OpenMP和MPI);

2、上机实验:Jacobi迭代;


13:30--17:00    

GPU深度学习

1、 深度学习GPU解决方案:

1.1基于GPU的交互式深度学习训练平台:DIGITS;

1.2深度学习框架TensorFlow,Caffe等的GPU加速:cuDNN;

1.3 NVIDIA深度学习SDK:TensorRT,NCCL;

2、 上机操作:通用深度学习框架的GPU加速库cuDNN的使用;

3、 上机操作:深度学习前端推理引擎TensorRT的使用;


GPU技术前沿

1、 CUDA 9新特性;

2、 Pascal,Volta显卡新架构;

3、答疑解惑,互相讨论。

会议嘉宾

即将更新,敬请期待

参会指南


人员

一人参加

两人及以上

老师

3000元/人

2700元/人

学生

2500元/人

2200元/人

 老师及学生需持证参会

优惠二:买5赠1,同一单位5人及以上原价参加,可赠送一个名额(与优惠一只可选其一)

相关领域
商业