麦思博软件技术有限公司举办《刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与

2017年10月28日 8:00 至 2017年10月29日 18:00 ，麦思博软件技术有限公司在上海举办《刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与实践（2017年10月上海站）》。

课程介绍

刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与实践（2017年10月上海站）

刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与实践（2017年10月上海站）宣传图

大数据（Hadoop、Spark、NOSQL）案例分析与实践

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架，已经广为人知，且得到了广泛的应用，但MapReduce自身存在很多问题，包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下，不能很好地利用内存资源，编程复杂度较高等。为了克服MapReduce的众多问题，新型计算框架出现了。

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构， Spark、Hadoop实战技巧，Spark、Hadoop经典案例等。
通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握Spark、Hadoop等初中级应用开发技能；搭建稳定可靠的Spark、Hadoop集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等。

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

了解Linux系统及相关语言环境

2天

麦思博软件技术有限公司

麦思博(msup)有限公司发源美国西雅图，2007年创办，是一家面向技术型组织的培训咨询机构，服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合，注重角色岗位的技能提升与职业发展，以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。

课程大纲

主题	内容
Hadoop简介和生态系统介绍	传统大规模数据分析存在的问题 Hadoop概述 Hadoop与分布式文件系统 Hadoop生态系统 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 Hadoop版本介绍 Hadoop与Google FS的关系 Hadoop在国内的使用情况和未来
Hadoop安装和主要配置文件介绍	Hadoop安装所需软件介绍 Hadoop单机安装 Hadoop伪分布式安装 Hadoop完全分布式安装 Hadoop三个节点安装的配置介绍 Hahoop多节点ssh配置 Hadoop格式化详解 Hadoop核心配置文件介绍核心配置文件core-site.xml HDFS配置文件hdfs-site.xml Mapreduce配置文件mapred-site.xml master文件配置详解 slave文件配置详解 Hadoop启动和停止方法一 —start-all.sh详解 —stop-all.sh详解 Hadoop的启动和停止方法二 —hadoop-deamon.sh详解 Hadoop安装的常见错误介绍和解决方案使用自带的wordcount和pi测试集群安装是否成功使用Streaming来测试集群安装是否成功
Hadoop组件介绍	Hadoop NameNode 介绍 Hadoop SecondaryNameNode 介绍 Hadoop DataNode 介绍 Hadoop JobTracker 介绍 Hadoop TaskTracker 介绍
Hadoop的HDFS模块	HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详解 SecondaryNameNode功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Hadoop的机架感知配置 HDFS的shell命令介绍 HDFS的thrift server服务介绍 HDFS的API接口介绍 HDFS的权限详解 Hadoop的客服端接入案例
MapReducer入门	Mapreduce原理 MapReduce流程剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的最小驱动类 MapReduce自带的类型自定义Writables和WritableComparables Mapreduce的输入InputFormats MapReduce的输出OutputFormats Combiner详解 Partitioner详解 DistributeFileSystem详解 Hadoop Tools工具介绍 Counter计数器详解自定义Counter计数器基于Hadoop二次开发实战 MapReduce的优化 Map和Reduce的个数设置 Hadoop小文件优化任务调度默认的任务调度公平任务调度能力任务调度使用 Hadoop MapReduce Streaming 编程 MapReduce的单元测试
Hive	Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive部署和安装 HiveCli的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接
Sqoop介绍	Sqoop是什么 Sqoop安装 Sqoop把mysql数据导入HDFS Sqoop把HDFS数据导入Mysql Sqoop吧Mysql数据导入Hive Sqoop吧Mysql数据导入Hive分区
Hadoop集群配置和维护	Hadoop集群的部署要点 NameNode和SecondaryNameNode和JobTracker机器的配置要求 dataNode与tasktracker机器的配置要求 Hadoop集群管理的工具介绍 Ganglia和nigos监控Hadoop集群介绍 Ambri介绍添加和删除节点演示 Namenode的单点解决方案 NameNode的NFS备份介绍集群所有dataNode挂掉的故障介绍集群NameNode的fsimage丢掉恢复方法 Hadoop集群维护的注意点
Hbase使用	Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的thriftServer介绍 Hbase的API介绍 Hbase使用场景介绍 Hbase案例分析
大数据在国内的运用	大数据在国内的使用介绍离线计算框架介绍流式计算框架介绍内存计算框架介绍内存流式计算介绍大数据实时请求框架介绍大数据在移动的案例介绍大数据在银行的案例介绍大数据在阿里的案例介绍
Spark生态介绍	Spark产生背景 Spark（内存计算框架） SparkSteaming（流式计算框架） SparkSQL（ad-hoc） Mllib（MachineLearning） GraphX（bagel将被代）
spark安装部署	Spark安装简介 Spark的源码编译 SparkStandalone安装 SparkStandaloneHA安装 Spark应用程序部署工具spark-submit
Spark运行架构和解析	Spark的运行架构基本术语运行架构 SparkonStandalone运行过程 SparkonYARN运行过程 Spark运行实例解析 SparkonStandalone实例解析 SparkonYARN实例解析
SparkSQL原理和实践	SparkSQL原理 SparkSQL的Catalyst优化器 SparkSQL内核 SparkSQL和Hive SparkSQL的实例和编程 SparkSQL的实例操作demo SparkSQL的编程

讲师介绍

刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与实践（2017年10月上海站）

Teradata

云平台系统架构师

毕业于大连理工大学，本科，有多年大数据分析类大型项目的架构实施经验，目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata，实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验，了解大数据在互联网的使用场景。

1）编写并出版《Hadoop应用开发技术详解》图书，销售10000+册——机械工业出版社(2014-01)

2）专利《海量数据基于记录级别的容错》

3）在infoQ和CSDN等技术论坛都有采访和发表过文章

4）2015 China hadoop summit 的特约演讲嘉宾

专业技能：

1）能熟练的运用Linux系统开发和shell编程,

2）精通java、熟悉python、R语言

3）熟悉struts、spring、hibernate开发

4）熟练运用mysql、oracle等关系型数据库，Cassendra、mongoDB、Redis等NoSql数据库

7）熟练运用flumeNG、scribe等日志收集工具

8）熟练运用ganglia和Nagios、openTSDB对hadoop集群进行监控

9）熟练运用storm、spark 分布式计算模型，spark Streaming、Mllib和graphx

10）精通MR的编程、Mahout、hbase、Oozie、Kafka、Impala、Tez、hive等应用

11）精通hadoop平台的搭建、优化、监控和其生态系统组件的使用。

12）熟悉openstack和docker虚拟化技术

认证：

国考——软件设计师(中级)—2009年

近期案例：

兰州银行，大数据平台，架构师，2014年

内蒙移动，大数据平台试点(Hadoop)，架构师，2014年

远传电信(台湾)，Hadoop平台优化解决方案和实施，架构师，2014年

招商银行大数据咨询项目规划和设施，架构师 2015年

交通银行大数据平台规划和设施，架构师 2015年

高德软件，高德集团大数据中心的建设、从15个Hadoop节点经过5次的扩容到300+节点，机房换了两个，负责Hadoop平台的开发、优化、运维和给兄弟部门提供服务等，Hadoop部门经理，2011.03 -2013.01年

阿里巴巴大数据高级架构师，负责OPDS平台架构、开发和运维 2013-2014.04年

课程费用

课程费用：5800元

麦思博软件技术有限公司举办《刘刚培训公开课：大数据（Hadoop、Spark、NOSQL）案例分析与

课程介绍 课程信息 主办方介绍

课程大纲

讲师介绍

课程费用 课程费用

课程介绍

课程费用