北京中科软培科技有限公司举办《高性能计算(CPU/GPU)解决方案应用班》

2018年3月26日 8:30 至 2018年3月31日 17:30 ,北京中科软培科技有限公司在 北京·海淀区上地软件园·举办《高性能计算(CPU/GPU)解决方案应用班》,会议大约有200人参加。

会议通知


高性能计算(CPU/GPU)解决方案应用班

高性能计算(CPU/GPU)解决方案应用班宣传图

随着人工智能AI大数据Big Data、云计算Cloud Computing等计算机科学技术的发展和应用的普及,深度学习DL和人工智能AI成为当下最炙手可热的技术趋势,将成为技术行业基础设施的核心组成部分。GPU的价值不止体现在深度学习,在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。如今,乎所有的深度学习(机器学习)研究者都在使用GPU进行相关的研究,NVIDIA针对深度学习的计算,有一套完整的解决方案,cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库,包含完整的矩阵乘法和卷积计算的实现。因此我单位举办“高性能计算(CPU/GPU)解决方案应用班”,具体由北京中科软培科技有限公司、北京并行科技股份有限公司、北京北龙超级云计算有限责任公司共同主办,由中国科学院计算机网络信息中心协办,本次培训班由权威师资主讲。

培训目的:

现有硬件资源最大化利用,提供多种并行优化方案组合策略,提高并行程序设计与开发水平,熟悉常见的并行计算模式,了解深度学习的主流GPU加速解决方案;实际体验高性能计算环境,能够应对主流的超算环境;提供符合自身特点的工程计算解决方案,了解高性能计算和深度学习应用场景

主讲专家:

张老师  计算所高性能中心工程师,本科毕业于华中科技大学,硕士毕业于中科院计算所,主要技术方向为并行计算,基因测序大数据处理。

王老师  计算所高性能中心助理研究员,2006-2010清华大学工程力学学士;2010-2016清华大学流体力学博士;2016-至今从事并行算法优化研究工作。

刘老师  中科院系统,研究领域:高性能计算,并行编程,生物医学图像处理。多年MPI/OpenMP/CUDA/OpenCL/OpenACC优化加速经验,多年大型项目移植优化经验。

培训对象:

从事高性能计算、GPU加速、并行计算、CUDA编程、openCV、石油、气象、化工、人工智能、深度学习、计算机视觉、人脸识别、 图像处理、行人检测、自然语言处理等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关技术人员;

北京中科软培科技有限公司

中科软培主要从事IT方向的前沿技术培训,本着为用户创造真正价值,围绕以用户为中心的价值观不断探索,在机器学习,深度学习,大数据、R语言、虚拟现实、增强现实等领域形成了完善的课程体系。学以致用,全部课程均已实战为主,采用理论与实战相结合的方式,实用的课程设计、精心施教的专家团队、严格的教学把关、细心周到的后期咨询,赢得众多客户的好评。

会议日程 (最终日程以会议现场为准)


CPU:2018年3月26日-28日   25日报到   北京

GPU:2018年3月29日-31日   28日报到   北京

(1)CPU

 

 

3月26日

 

 

 

OpenMP提纲

 

1、OpenMP基础:概念介绍、环境搭建、基本用法、编程模型、性能分析

2、OpenMP线程操作:线程同步、数据同步、多线程并发、并行循环计算详解

3、OpenMP任务和数据处理:数据共享模式、作用范围制导语句、task指令的使用

4、深入了解OpenMP的内存模型和硬件基础

OpenMP上机实践:

1、Hello_world、基本指令的使用、积分法计算PI

2、各种OpenMP指令实现并优化计算圆周率

3、section、task的使用、曼德博集合面积的计算、斐波那契数列

4、挑战题:利用蒙特卡洛算法计算PI、邻接列表的并行处理

 

 

 

 

 

 

 

 

 

 

 

 

3月27日

 

 

 

 

 

 

 

 

 

 

 

 

并行计算与编

基础

1、并行机体系机构与编程模型概述

①      共享存储结构

②      共享地址空间

③      消息传递

④      数据并行

⑤      SMP与GPU集群

2、 并行计算的模型与分析

①      并行执行时间评估模型

②      并行算法的效率特性

③      并行计算拓展性分析

3、 MPI并行编程一

①      MPI基本概念与定义

②      MPI运行环境

③      MPI基础:MPI程序初始化与终止、进程设置与获取、消息发送与接

④      进程间的通讯:通讯模式、阻塞与非阻塞通讯

⑤      上机实践

4、 MPI并行编程二

①      集合通信:数据广播、归约、分发、搜集、all to all 通讯、归约操作

②      MPI派生数据类型

③      上机实践

5、   MPI并行编程三

①      进程组与通信子

②      虚拟拓扑:笛卡尔拓扑,图拓扑

③      上机实践

6、混合并行编程:MPI+OpenMP

①      多线程编程与openMP概述

②      openMP指令介绍

上机实践

3月28日

 

并行计算进阶编程实战

1、 实战练习一:矩阵向量乘运算

①     问题阐述

②     数据分解策略

③     串行算法

④     并行算法:行划分,列划分

2、 实战练习二:矩阵-矩阵乘运算

①      问题阐述

②      串行算法

③      并行算法:块带状分解,Fox’s方法

3、 实战练习三:高斯消元法

①      问题阐述

②      串行算法

③      并行算法

4、 实战练习四:高斯赛德尔迭代

①      问题阐述

②      串行算法

③      并行算法

5、 实战练习五:佛洛依德图算法

①      问题阐述

②      串行算法

③      并行算法

6、 实战练习六:冒泡排序法

①      问题阐述

②      串行算法

并行算法

(2)GPU

3月29日

GPU高性能计算——OpenACC编程基础与优化进阶

1、 OpenACC基础:概念,与CUDA区别,编译器,生态;

2、 OpenACC开发环境搭建配置;

3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化

    3.1判断并行性:Profile工具pgprof;

3.2并行化表达:引导关键字Kernerls和Parallel Loop;

3.3显式管理数据的拷贝:引导关键字Data;

3.4优化:统一内存管理,线程并行层级,collapse,tile

OpenACC上机实操:

1. Hellow world;

2.矢量点乘;

3月30日

GPU高性能计算——CUDA编程基础与优化进阶

1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比;

2、 CUDA开发环境搭建和工具配置;

3、 CUDA优化进阶:线程组织调度,分支语句,访存优化,数据传输,原子操作;

4、 GPU并行计算模式及案例分析:

    分析调试:parallel nsight,visual profiler,cuda-gdb;

5、 CUDA生态系统和相关专业领域软件介绍;

CUDA上机实操:

1、 Helloworld,向量加,cuda库的使用(cuBLAS、cuFFT );

2、 矩阵乘,直方图,卷积,规约;

3月31日

大规模并行开发:多GPU开发

1、 GPU异步编程,多GPU编程(混合OpenMP和MPI)及调试调优工具;

2、 OpenACC互操作性:OpenMP,MPI,CUDA;

OpenACC上机实操:

1、 Jacobi迭代

ROCm HIP,OpenCL编程

1、 OpenCL:编程模型,存储模型,生态,CUDA vs OpenCL;

2、 ROCm HIP:hipify转换,HIP vs OpenCL

OpenCL上机实验:

向量加,矩阵乘

GPU高性能计算——深度学习

1、 深度学习GPU解决方案:

1.1基于GPU的交互式深度学习训练平台:DIGITS;

1.2深度学习框架的GPU加速:TensorFlow,Caffe等;

1.3 NVIDIA深度学习SDK:cuDNN,TensorRT,NCCL;

1.4深度学习显卡选择;

深度学习上机实操:

1、   使用DIGITS进行目标识别检测与图像分类;

2、  Caffe,TensorFlow,Theano等通用深度学习框架的GPU加速库cuDNN的使用;

3、 深度学习前端推理引擎TensorRT的使用;

4、单机多卡的深度学习解决方案NCCL实验;

GPU技术前沿

1、 CUDA 9新特性

2、 Pascal,Volta显卡新架构

会议嘉宾

即将更新,敬请期待

参会指南


CPU培训课:2980元/人

GPU培训课程:3980元/人

CPU+GPU5980元/人

含报名费、培训费、教材费、资料费,食宿统一安排费用自理。

相关领域
商业