华为系大数据专家

  • 擅长领域:
  • 主讲课程:
    《大数据分析与数据挖掘综合能力提升实战》 《“数”说营销----大数据营销实战与沙盘》 《市场营销大数据分析实战培训》 《大数据建模与模型优化实战培训》 《大数据分析与挖掘之SPSS工具入门与提高》 《大数据分析与挖掘之Modeler工具入门与提高培训》 《金融行业风险预测模型实战培训》 理论/认知/策略类: 《大数据……
  • 邀请费用:
    0元/天(参考价格)
Hadoop大数据解决方案平台技术培训

2019-06-05 更新 462次浏览

在线咨询
  • 所属领域
    市场营销 > 大数据营销
  • 适合行业
    银行证券行业 航空客运行业 汽车服务行业 教育培训行业 其他
  • 课程背景
  • 课程目标
    Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。 通过本课程的学习,达到如下目的: 1、全面了解大数据处理技术的相关知识。 2、学习Hadoop的核心技术以及应用。 3、深入掌握Hadoop的相关工具在大数据中的使用。 4、掌握Hadoop的常用模块的工作原理及开发应用技术。 5、掌握传统数据中心向大数据中心转换的关键技术。 6、掌握海量数据处理的性能优化及维护技巧。
  • 课程时长
    两天
  • 适合对象
    网络部、大数据系统开发部、大数据中心、网络运维部等相关技术人员。
  • 课程大纲

    Hadoop的基本框架

    大数据时代面临的问题

    当前解决大数据的技术方案

    Hadoop架构和云计算

    Hadoop简史及安装部署

    Hadoop设计理念和生态系统

    HDFS分布式文件系统--海量数据存储的摇篮

    HDFS的设计目标

    HDFS的基本架构

    NameNode名称节点

    SecondaryNameNode第二名称节点

    DataNode数据节点

    HDFS的存储模型

    数据块存储

    元数据存储(空间镜像与编辑日志)

    多副本存储

    多副本放置策略

    多数据节点管理机制与交互过程

    文件系统操作与管理

    读文件过程

    写文件过程(数据流管道)

    数据完整性机制

    数据校验和

    数据完整性扫描线程

    元数据备份与合并

    数据可靠性设计

    安全模式(数据块与节点映射关系管理)

    心跳检测机制(节点失效管理)

    租约机制(多线程并发控制)

    其它

    HDFS的安全机制

    负载均衡

    文件压缩

    操作接口与编程接口

    HDFS Shell

    HDFS Commands

    WebHDFS REST API

    HDFS Java API

    演练:HDFS文件操作命令

    演练:HDFS编程示例

    MapReduce分布式计算系统--海量数据处理的利器

    MapReduce的三层设计理念

    分布治之的设计思想(Map与Reduce)

    数据处理引擎(编程模型)

    运行时环境(任务调度与执行)

    MapReduce的基本架构

    JobTracker作业跟踪器

    TaskTracker任务跟踪器

    MapReduce与HDFS的部署关系

    MapReduce编程模型概述

    编程接口介绍

    Hadoop工作流实现原理

    MapReduce作业调度机制

    MapReduce作业生命周期

    作业调度策略

    静态资源管理方案

    数据并行处理机制(五步骤)

    Input阶段实现

    Map阶段实现

    Shuffle阶段实现

    Reduce阶段实现

    Output阶段

    MapReduce容错机制

    任务失败与重新尝试

    节点失效与重调度

    单点故障

    MapReduce性能优化

    优化方向与思路

    磁盘IO性能优化

    分片优化

    线程数量优化

    内存优化

    压缩优化

    MapReduce操作接口

    Job Shell

    Web UI

    案例演练:MapReduce编程示例

    YARN:下一代通用资源管理系统

    MRv1的局限性

    YARN基本框架

    NN HA:解决单点故障

    HDFS Federation:解决扩展性问题

    HBase非关系型数据库--海量数据的黎明

    HBase的使用场景

    HBase的基本架构

    Zookeeper分布式协调服务器

    Master主控服务器

    Region Server区域服务器

    HBase的数据模型

    HBase的表结构

    行键、列键、时间戳

    HBase的存储模型

    基本单位Region

    存储格式HFile

    数据分裂机制Split

    数据合并机制Compaction

    minor compaction

    major compaction

    HLog写前日志

    数据库读写操作

    数据库写入

    数据库读取

    三次寻址

    HBase操作接口

    Native Java API

    HBase Shell

    批量加载工具

    HiveQL操作

    HBase性能优化

    写速度优化

    读速度优化

    HBase集群监控与管理

    案例演练:HBase命令操作实例

    Hive分布式数据仓库--高级的编程语言

    Hive是什么

    Hive与关系数据库的区别

    Hive系统架构

    用户接口层

    元数据存储层

    驱动层

    Hive常用服务

    Hive元数据的三种部署模式

    Hive的命名空间

    Hive数据类型与存储格式

    数据类型

    TextFile/SequenceFile/RCFile

    Hive的数据模型

    管理表

    外部表

    分区表

    桶表

    HQL语言命令实例

    DDL数据定义语言

    DML数据操作语言

    QUERY数据查询语言

    Hive自定义函数

    基本函数(UDF)

    聚合函数(UDAF)

    表生成函数(UDTF)

    Hive性能优化

    动态分区

    压缩

    索引

    JVM重用

    案例演练:Hive命令操作实例

    Sqoop数据交互工具--与传统数据库的桥梁

    Sqoop是什么

    Sqoop的架构和功能

    Sqoop1架构

    Sqoop2架构

    数据双向交换

    数据导入过程

    数据导出过程

    数据导入工具与命令介绍

    案例演练:Sqoop数据导入/导出实际操作

    Pig数据流处理引擎--数据脚本语言

    Pig介绍

    命令行交互工具Grunt

    Pig数据类型

    Pig Latin脚本语言介绍

    基础知识

    输入和输出

    关系操作

    调用静态Java函数

    Pig Latin高级应用

    开发与测试Pig Latin脚本

    开发工具

    任务状态监控

    调试技巧

    脚本性能优化

    用户自定义函数UDF

    案例演练:Pig Latin脚本编写、测试与运行操作

    结束:课程总结与问题答疑。


    课程标签:市场营销、大数据营销

需求提交

  • 您可以在这里提交您的培训需求:
  • 您的企业想培训什么课题?有多少人参加?培训人员层次?

    提交培训需求后我们会和您取得联系,为您提供最适合您的培训课程方案!


中华名师网 版权所有 豫ICP备2021027467号-2

Copyright © 2010-2025 mingshi51.com All Rights Reserved.

咨询热线:400-108-3721

周一至周日 08:00~21:00

在线咨询