中国领先的工业平台

返回贤集网 返回技术资料

大数据原理与技术PDF电子书

第1章 大数据概述 01. 1 大数据的概念与价值 21.1.1 什么是大数据 21.1.2 大数据的来源 41.1.3 大数据有什么价值 51.1.4 如何挖掘企业大数据的价值 61.2 大数据的关键技术 71.2.1 大数据采集、预处理与存储管理 71.2.2 大数据分析与挖掘 81.2.3 数据可视化 91.3 大数据产业 91.3.1 数据提供 91.3.2 技术提供 91.3.3 服务提供 101.4 大数据应用场景 101.5 本章总结 11练习题 12第 2章 Hadoop大数据处理平台 142.1 Hadoop平台概述 162.1.1 Hadoop简介 162.1.2 Hadoop的特性 172.1.3 Hadoop应用现状 172.1.4 Hadoop版本及相关平台 182.2 Hadoop生态系统 182.2.1 Hadoop存储系统(HDFS&HBase) 182.2.2 Hadoop计算框架(MapReduce&YARN) 192.2.3 Hadoop数据仓库(Hive) 202.2.4 Hadoop数据转换与日志处理(Sqoop&Flume) 202.2.5 Hadoop应用协调与工作流(ZooKeeper&Oozie) 202.2.6 大数据安全技术(Kerberos&LDAP) 212.2.7 大数据即时查询与搜索(Impala&Solr) 212.2.8 大数据消息订阅(Kafka) 212.3 Hadoop安装部署 222.3.1 Hadoop规划部署 222.3.2 Hadoop的安装方式 232.4 华为FusionInsight HD安装部署 262.4.1 FusionInsight HD简介 262.4.2 FusionInsight HD集成设计 282.4.3 FusionInsight HD安装部署 332.4.4 FusionInsight HD重要参数配置 412.5 本章总结 42练习题 43第3章 大数据存储技术(HDFS) 443.1 概述 463.1.1 分布式文件系统的概念与作用 473.1.2 HDFS概述 473.2 HDFS的相关概念 483.2.1 块 483.2.2 NameNode 493.2.3 Secondary NameNode 503.2.4 DataNode 513.3 HDFS体系架构与原理 523.3.1 HDFS体系架构 523.3.2 HDFS的高可用机制 523.3.3 HDFS的结构 543.3.4 HDFS的数据读写过程 573.4 HDFS接口及其在FusionInsight HD编程中的实践 583.4.1 HDFS常用Shell命令 593.4.2 HDFS的Web界面 603.4.3 HDFS的Java接口及应用实例 623.5 本章总结 67练习题 67第4章 大数据离线计算框架(MapReduce & YARN) 704.1 MapReduce技术原理 724.1.1 MapReduce概述 734.1.2 Map函数与Reduce函数 734.2 YARN技术原理 744.2.1 YARN的概述与应用 744.2.2 YARN的架构 754.2.3 MapReduce的计算过程 764.2.4 YARN的资源调度 784.3 FusionInsight HD中MapReduce的应用 784.3.1 WordCount实例分析 784.3.2 MapReduce编程实践 794.4 本章总结 85练习题 86第5章 大数据数据库(HBase) 885.1 HBase概述 905.1.1 HBase简介 905.1.2 HBase与关系型数据库的区别 915.1.3 HBase的应用场景 925.2 HBase的架构原理 925.2.1 HBase的数据模型 925.2.2 表和Region 935.2.3 HBase的系统架构与功能组件 945.2.4 HBase的读写流程 965.2.5 HBase的Compaction过程 975.3 FusionInsight HD中HBase的编程实践 985.3.1 FusionInsight HD中HBase的常用参数配置 985.3.2 HBase的常用Shell命令 1005.3.3 HBase常用的Java API及应用实例 1035.4 本章总结 118练习题 118第6章 大数据数据仓库(Hive) 1206.1 Hive概述 1226.1.1 Hive简介和应用 1226.1.2 Hive的特性 1236.1.3 Hive与传统数据仓库的区别 1246.2 Hive的架构和数据存储 1246.2.1 Hive的架构原理 1246.2.2 Hive的数据存储模型 1276.2.3 HiveQL编程 1286.3 FusionInsight HD中Hive应用实践 1326.3.1 FusionInsight HD中Hive的常用参数配置 1326.3.2 加载数据到Hive 1336.3.3 使用HiveQL进行数据分析 1356.4 本章总结 139练习题 139第7章 大数据数据转换(Sqoop与Loader) 1427.1 Sqoop概述 1447.1.1 Sqoop简介与应用 1457.1.2 Sqoop的功能与特性 1457.1.3 Sqoop与传统ETL的区别 1467.2 FusionInsight HD中Loader的应用实践 1467.2.1 FusionInsight HD中Loader与Sqoop的对比 1477.2.2 FusionInsight HD中Loader的参数配置 1487.2.3 使用Loader进行数据转换 1497.2.4 Loader的常用Shell命令 1507.2.5 Loader应用实践 1527.3 本章总结 153练习题 154第8章 大数据日志处理(Flume) 1568.1 Flume概述 1588.1.1 Flume简介与应用 1588.1.2 Flume的功能与特性 1618.1.3 Flume与其他主流开源日志收集系统的区别 1628.2 FusionInsight HD中Flume的应用实践 1628.2.1 FusionInsight HD中Flume的常用参数配置 1638.2.2 Flume常用的Shell命令 1648.2.3 Flume与Kafka结合进行日志处理 1658.3 本章总结 168练习题 169第9章 大数据实时计算框架(Spark) 1709.1 Spark概述 1729.1.1 Spark的概述与应用 1739.1.2 Scala语言介绍 1749.1.3 Spark生态系统组件 1749.1.4 Spark与Hadoop的对比 1759.2 Spark技术架构 1769.2.1 Spark的运行原理 1769.2.2 RDD概念与原理 1779.2.3 Spark的三种部署方式 1819.2.4 使用开发工具测试Spark 1829.3 FusionInsight HD中Spark应用实践 1839.3.1 运行Spark Shell 1839.3.2 进行Spark RDD操作 1849.3.3 使用Spark客户端工具运行Spark程序 1859.4 Spark Streaming 1889.4.1 Spark Streaming的设计思想 1889.4.2 Spark Streaming的应用实例 1899.5 Spark SQL 1919.5.1 Spark SQL的功能 1919.5.2 FusionInsight HD中Spark SQL的应用实例 1929.6 Spark MLlib 1939.6.1 机器学习简介 1939.6.2 Spark MLlib的功能 1949.7 Spark GraphX 1949.7.1 图计算简介 1949.7.2 Spark GraphX功能简介 1959.8 本章总结 195练习题 196第 10章 大数据流计算 19810.1 流计算概述 20010.1.1 静态数据和流数据 20110.1.2 流计算的概念 20110.1.3 MapReduce和流计算 20210.1.4 流计算框架 20210.2 流计算的处理流程 20310.2.1 数据实时采集 20310.2.2 数据实时计算 20310.2.3 数据实时查询 20310.3 Streaming流计算 20410.3.1 Streaming简介 20410.3.2 Streaming的特点 20610.3.3 Streaming在FusionInsight HD上的应用实践 20810.3.4 Spark Streaming与Streaming的差异 21210.4 本章总结 213练习题 213第 11章 数据可视化 21611.1 可视化概述 21811.1.1 数据可视化简介 21911.1.2 数据可视化的重要性 21911.1.3 可视化的发展历程 21911.1.4 数据可视化的过程 22111.2 可视化工具 22211.2.1 入门级工具(Excel) 22211.2.2 普通工具(R语言) 22211.2.3 工具(Tableau和QlikView) 22311.3 可视化的典型应用 22311.3.1 可视化在医学上的应用 22311.3.2 可视化在工程中的应用 22411.3.3 可视化在互联网的应用 22511.4 本章总结 225练习题 226第 12章 大数据行业应用 22812.1 大数据在金融行业的应用 23012.2 大数据在电信行业的应用 23212.3 大数据在公安系统的应用 23612.4 大数据在互联网行业的应用 23712.5 本章总结 237

网盘:https://wwc.lanzout.com/iuhUV06z5oof


小提示:登录后刷新 微信支付1元即可查看网盘密码~

       网盘密码:******


*** 提醒:如果获取失败,请联系客服退款。 客服QQ:874345335。***