Hadoop数据分析与挖掘实战 Spark实战高端课程培训方案

认证机构

本课程由北京国软培训提供,有773浏览量

课程分类:  IT培训

适合对象:  系统架构师、系统分析师、高级程序员、资深开发人员;高校、科研院所涉及到大数据与分布式数据处理的项目负责人;熟悉Hadoop生态系统,想更深入学习Hadoop与Spark整合在企业应用实战案例的朋友;

咨询电话:  400-968-9396

上课地点:  [华信大厦校区] 北京石景山石景山周边华信大厦校区

开班日期:  滚动开班

学       费:  咨 询

班       级:  
  • 华信大厦校区
  • 北京海淀校区
  • 华信大厦校区
  • 海淀校区
 
人       数:
 
报名试听 我要咨询

课程简介

【课程优势】

     本课程的优势就是:

     1、整个培训过程老师带着学员进行全程上机操作,因此要求每个学员带笔记本电脑。

     2、整个过程老师带着学员进行全程上机操作外,学员会进行全程实战演练,并且在演练过程中会以实际项目案例为主。在演练过程中老师会进行不断的指导,使培训课程真正落地。

【主讲老师】

   刘 刚:

原阿里集团-阿里云研发中心大数据资深技术经理大数据专家国内资深大数据实战专家

   刘老师现就职于某国际跨国专业大数据公司中国研发中心高级技术经理大中华区大数据总负责人。目前主要负责该国际跨国专业大数据公司在大中华区各大商业银行、电信等领域大数据系统的研发与现场实践。

     刘老师同时国内资深的、最早的一批大数据技术专家、虚拟

 

化专家,在进入阿里之前曾就职于高德等知名IT企业,担任Hadoop高级工程师。对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDBOpenStack等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富项目实施经验。

     刘老师近年主持或参与的主要典型项目有:上海电信网络优化、中国移动广东移动省公司请账单系统和广州移动详单实时查询系统、中国银联大数据数据票据详单平台、中国光大银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等

【课程大纲】

      “Hadoop数据分析与挖掘实战”课程内容

课程模块

课程主题

主要内容

案例和演示

模块一

Hadoop组件详解

1、Hadoop HDFS 基本结构

2、Hadoop HDFS 副本存放策略

3、Hadoop NameNode 详解

4、HadoopSecondaryNameNode 详解 

5、Hadoop DataNode 详解

6、Hadoop JobTracker 详解 

7、Hadoop TaskTracker 详解

8、Yarn资源管理系统详解

9、Resourcemanager详解

10、NodeManager详解

1、Hadoop Mapper类核心代码

2、Hadoop Reduce类核心代码

3、Hadoop 核心代码

 

模块二

 

数据分析的算法详解

1、K-means算法详解

2、线性回归详解

3、机器学习详解

4、Canopy算法详解

5、贝叶斯算法详解

 

模块三

Hive实战(数据分析)

1、Hive

(1)Hive的负载均衡搭建 

(2)Hive的访问方式 

(3)Hive的元数据存储到Mysql 

(4)Hive的数据类型 

(5)Hive表的创建 

(6)Hive加载数据 

(7)HiveCLI操作介绍 

2、hive数据定义 

(1)内部表和外部表 

(2)表的分区 

(3)删除表 

(4)修改表 

(5)查询语句 

(6)where语句 

3、Hive高级查询语句 

(1)group by操作 

(2)Join操作 

(3)Order bySort by 

(4)Union all 

(5)索引 

4、Hive的存储类型和复合数据类型 

(1)TextFile 

(2)Sequence File 

(3)RCFile 

(4)Hive的自定输入格式 

(5)Array 

(6)Map 

(7)Struct 

5、Hive的内置函数和自定义UDFUDAF实战 

6、Hive的调优 

(1)explain 

(2)队列设置 

(3)Join优化 

(4)本地模式和并行执行 

(5)设置MapperReducer的个数 

(6)JVM重用 

(7)索引 

(8)动态分区调整 

(9)推测执行 

(10)Hivedebug调试 

7、hive的安全 

(1)Hivehadoop安全的整合 

(2)使用Hive进行验证 

(3)Hive的权限管理 

(4)分区级别的权限 

(5)自定授权 

8、Hive的案例实战 

(1)nginx日志实战 

(2)某公司的Hive项目 

1、nginx日志实战 

2、某公司的Hive项目

模块四

Mahout实战(数据挖掘)

1、Mahout安装测试
2、Mahout算法库介绍
3、解析聚类算法
4、解析分类算法
6、协同过滤算法
7、聚类算法详解
8、canopy算法
(1)mahoutcanopy算法实现原理(2)mahoutcanopy算法实战
(3)Hadoop上面运行canopy算法
9、mean shift算法
(1)mean shift算法简介
(2)mahoutmean shift算法实现原理
(3)mahoutmean shift算法实战
(4)Hadoop上面运行mean shift算法
10、k-means算法
(1)k-means算法简介
(2)mahoutk-means算法实现原理
(3)mahoutk-means算法案例实战
(4)Hadoop上面运行k-means算法
11、分类算法
(1)贝叶斯算法简介
(2)贝叶斯算法原理介绍
(3贝叶斯算法在hadoop上面运行
(4)贝叶斯算法的案例实战
12、Mahout推荐算法介绍
13、Taste的框架介绍
14、Mahout推荐器
(1)基于用户的推荐器

(2)基于项目的推荐器
(3)Slope One 推荐策略
15、推荐系统实战
(1)个性化推荐介绍
(2)推荐建模
(3)数据准备
(4)关联分析
(5)代码编写

模块五

数据挖掘在电信的案例

1、基站数据分析

2、人流的动态分析

3、拉链算法的案例详解

4、套餐的更改轨迹分析

5、客户中心的数据情感分析和挖掘

6、用户的通话记录分析

7、套餐的营销分析

8、分析流式的用户和挖掘潜在的客户

模块六

数据挖掘在银行的案例

1、财务分析

2、客户价值&风险定价

3、巴塞尔3 &信用风险

4、绩效管理

5、客户关系管理(CRM)

6、客户访问分析

7、流失路径

8、购买路径

9、欺诈路径

10、多渠道营销

11、欺诈

12、数据挖掘&原型设计

13、营销归因

14、投诉&销售合规

15、情感分析

u

              “Spark实战”课程内容

模 块

培训大纲

Spark

运行架构和解析

1Spark的运行架构

2、基本术语

3、运行架构

4Spark on Standalone运行过程

5Spark on YARN 运行过程

6Spark运行实例解析

7Spark on Standalone实例解析

8Spark on YARN实例解析

Spark

监控和调优

1Spark的监控

2Spark调优

     Spark

编程模型和解析

1Spark的编程模型

2Spark编程模型解析

3RDD的特点、操作、依赖关系

4Spark应用程序的配置

Spark

scala编程

1Scala基本语法

2Scala开发环境搭建

3Scala开发Spark应用程序

Spark Streaming原理和实践

1Spark Streaming原理

2Spark流式处理架构

3DStream的特点

4Dstream的操作和RDD的区别

5Spark Streaming的优化

6Spark Streaming实例

7、文本实例

8、网络数据处理

Spark SQL

原理和实践

1Spark SQL原理

2Spark SQLCatalyst优化器

3Spark SQL内核

4Spark SQLHive

5Spark SQL的实例和编程

6Spark SQL的实例操作demo

7Spark SQL的编程

Spark

源码研读

1Spark源码研读

2Spark源码下载和研读环境搭建

3Spark Core介绍

4SparkContext

5Executor

6Deploy

7RDDStorage

8SchedulerTask

9Spark Examples

 

Spark应用

案例实战

1、基于spark日志分析

2、个性化推荐系统:带你揭开其神秘面纱

3、在线投放引擎

4、揭开淘宝点击推荐系统的神秘面纱

5、京东商城数据服务架构实时计算平台


 

开设班级

班级 开班时间 上课地点 学费 试听/报名
华信大厦校区/ 面授 滚动开班 北京石景山华信大厦校区 咨询 报名
北京海淀校区/ 面授 滚动开班 北京海淀花园桥世纪经贸大厦 咨询 报名
华信大厦校区/ 面授 北京石景山华信大厦校区 5800.00 报名
海淀校区/ 面授 北京海淀花园桥世纪经贸大厦 5800.00 报名
 

课程咨询

我要咨询
 

发表咨询

 
有回复时短信通知我 发表咨询
课程推荐
更新时间:2019-02-27