本书是高校的大数据导论课程教材,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据导论”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。
共分11章,第1章对大数据及Hadoop进行总体介绍,第2章讲解了如何搭建Hadoop集群。第3-5章讲解了HDFS分布式文件系统、MapReduce分布式计算框架以及Zookeeper分布式协调服务。第6章讲解Hadoop2.0的新特性。第7-10章主要讲解了Hadoop生态圈中的相关辅助系统,包括Hive、HBas
本书系统介绍了大数据基础知识和相关技术,全书分为大数据概述篇、大数据存储与管理篇、大数据采集与预处理篇、大数据分析与挖掘篇、大数据平台Hadoop实践与案例分析篇。全书共15章,主要内容包括大数据基本概念、大数据存储与管理概念及技术、大数据采集及预处理技术、大数据计算模式、大数据分布式并行处理框架Hadoop、大数据分
本书作为Spark的入门书,从Spark核心编程语言Scala讲起,涵盖当前Spark主流的开发组件。以实操为主,深入讲解每一个操作步骤,包括SparkRDD离线数据处理、SparkSQL快速结构化数据处理、SparkStreaming实时数据处理,同时包括案例讲解、源码剖析、常用Shell命令和JavaAPI详解。即
本书系统地讲解了大数据处理常用技术,具体包括大数据处理架构Hadoop、分布式文件系统HDFS、MapReduce编程模型、分布式数据库Hbase、NoSQL数据库、Spark分布式内存计算、MapReduce应用开发、SparkSQL编程、数据可视化。本书编写特色理论与具体操作相结合,较低基础入门大数据技术。读者对象
本书按照处理数据的逻辑顺序和习惯,从数据的整理开始入手。从数据的抽样开始,介绍了传统统计的抽样理论,并进一步探讨大数据样本的代表性问题。并且通过具体案例向读者介绍整个数据探索性分析的主要步骤。然后是数据的展示技术,也就是常说的数据可视化,从数据的类型以及展示的内容不同,分别介绍了单变量和多变量数据的多种图示方法,数据的
本书以计算机控制技术在智能制造自动化生产线中的应用为核心,以培养学生专业的职业素养、完备的理论知识、扎实的实践操作技能和过硬的思政素质为目标,在工业以太网技术、工业机器人技术、智能视觉识别技术、PLC技术和嵌入式触摸屏技术应用的基础上,按照工业产品智能制造过程规范化和系统化的思想进行课程开发。 全书主要包括四大部分内
本书分7个单元。内容包括:Web数据可视化概述、新能源汽车大数据可视化监测平台、Web基础、前端框架、数据可视化设计基础、数据可视化整合、新能源汽车数据大屏。
这本书的目的是帮助所有人通过R使用ApacheSpark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。
《大数据处理:从采集到可视化》共分为9章,章数据采集,主要介绍了大数据的概念、类型及其特征,常见的数据采集方法;第2章数据清洗,主要讨论数据质量的维度,数据可能存在的质量问题,常见的数据清洗方法;第3章数据ETL,重点介绍了MGO方法;第4章数据存储,主要介绍了大数据时代的一些主流数据存储平台和相关技术;第5章回归算法