前言
随着第三次信息化浪潮的推进,物联网、互联网、社交媒体的协同发展催生了大数据,云技术和人工智能则是大数据的两翼,使得大数据拥有了强大的生命力和价值。大数据不仅改变了我们的生活方式,还在经济和社会领域产生了深远影响: 从人类认知范式的变革,到社会组织、群体结构及其联动方式的改变;从社会治理模式的重塑,到新兴商业模式的兴起、跨界管理创新模式的形成。数据正在重构各产业,流量正在改写未来,世界正变得越来越数字化,大数据正在以这种或那种方式深刻改变着我们的思维方式、教育模式和经济发展。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,已成为国家基础性战略资源,是经济加速发展的新引擎,也是企业高质量发展的使能器。大数据专业人才需求旺盛且急剧上升,急需具有高效数据分析能力、实际应用能力、数据管理实践能力的人才,特别是在金融、电商、制造业、医疗、交通等领域。
本书面向“双一流”建设,聚焦“一流”本科教育,依据教育部高等学校管理科学与工程类专业教学指导委员会对“大数据管理与应用”专业核心课程的目标和要求编写。本书基于对大数据产业的实地调研紧扣“大数据管理决策”和“大数据技术应用”两个方向的人才需求,以行业应用场景为出发点,从方法知识体系和实践案例两方面出发,帮助读者树立大数据思维意识,学习大数据管理与应用的知识体系,掌握基本的数据处理方法、大数据分析方法、大数据管理方法。本书内容体系分3部分,共9章。各章前面的内容导读指出本章最重要的内容,并通过思维导图展现概念间的关联;同时每章最后附上本章课后习题。
第一部分是大数据基础知识,由第1章构成,从大数据的概念入手,详细介绍大数据的结构与特征、对经济社会发展的影响以及应用的意义与挑战。
第二部分是大数据应用方法及其技术,由第2~6章构成,从大数据全生命周期出发,讲解大数据的获取方法、数据预处理技术、大数据存储技术、大数据分析与数据可视化展示技术,每章都附有实践案例,帮助读者在掌握理论的同时,增强实践能力。
第2章在介绍大数据来源与分类的基础上,重点介绍网络爬虫与数据解析等关键技术,并结合具体框架与工具对比多种互联网数据获取方法(如网络爬虫框架、采集器软件)及离线数据获取方法(传感器、系统日志),最后通过“无人潜水器”专利数据采集的实践案例,演示从分析到应用的全流程操作,帮助读者掌握不同场景下的数据获取技能。第3章主要讲解数据预处理的四个必要性任务及其方法手段,涵盖数据清洗(缺失值处理、重复值处理、异常值处理、逻辑错误清洗)、数据集成、数据变换(简单函数变换、数据标准化、数据离散化、数据编码)与数据归约(数量归约、维度归约)等关键技术,最后通过专利情报数据预处理实践案例,展示从原始数据到高质量数据集的完整处理流程。
第4章主要讲解3种典型的大数据存储方式,包括基于文件系统的数据存储、基于关系数据库的数据存储、NoSQL数据存储,并对新一代大数据存储技术(云存储技术、NewSQL)进行讲解,最后介绍一个Neo4j导入药材供应链数据的实践案例。
第5章在介绍大数据分析类型的基础上,主要讲解大数据分析与挖掘的经典模型(分类算法、聚类算法、回归分析算法、关联规则挖掘算法)、现代模型(神经网络、深度学习、强化学习、大模型)、应用场景(文本、图像、音频等数据分析),最后详细讲解基于某社交平台的推文内容分析、基于水下无人潜水器技术专利的K?means聚类分析实践案例。
第6章在介绍数据可视化的概念、流程的基础上,重点讲解大数据可视化的图表类型与应用方法,最后介绍一个基于某社交平台帖子数据的可视化实践案例。
第三部分是大数据管理,由第7~9章构成,主要探讨大数据管理的内涵及大数据驱动下的管理模式变革、数据质量管理、数据开放共享,帮助读者理解大数据管理及数据治理的实际应用。
第7章主要介绍大数据时代的管理思维变革、组织结构变革、运营模式变革、管理决策变革,并对商务、交通、医疗大数据决策应用中的实际数据来源、类别和应用场景进行了具体说明。
第8章在介绍数据质量概念、管理技术及工具的基础上,重点讲解数据质量评估方法(定性、定量和综合评估)、数据质量提升方法(事前、事中和事后),最后介绍一个社交媒体平台数据质量评估的实践案例。
第9章在介绍大数据开放共享的定义、框架、技术、风险的基础上,探讨大数据开放共享面临的挑战,最后介绍贵州省政府数据开放共享应用实践案例,帮助读者全面理解本章核心概念与方法。
本书可作为大数据管理与应用相关专业的教材,也可作为大数据领域的专业人员、研究人员以及对大数据感兴趣的初学者的参考书。本书参考学时数为48,提供各种形式的教学资源,包括电子教案、教学课件、练习与习题、实践数据及源代码等。
本书第1、2、3、6章由丁晟春编写,第4、5章由吴鹏编写,第7章由徐车编写,第8、9章由孙炀炀编写。全书由丁晟春统稿。此外,孙思亮、张文静、蔡梓润、朱泓瑾、邹家玄、苏婧雯、公婧泽等参与了部分章节和实践案例的编写,在此表示感谢!
本书的编写参考了大量近年来出版的相关文献,吸取了许多专家和同仁的宝贵经验,在此深表谢意。
由于大数据技术发展迅速,编者学识有限,书中误漏之处难免,恳请广大读者批评指正。
编者
2026年3月
目录
第1章大数据简介/1
1.1何为大数据2
1.1.1大数据时代的到来2
1.1.2大数据的来源与发展4
1.1.3大数据定义7
1.1.4大数据的分类8
1.2世界各国大数据发展战略9
1.2.1中国大数据发展战略9
1.2.2国外主要国家大数据发展战略14
1.3大数据特征15
1.3.1大数据的结构化15
1.3.2大数据的5V特点16
1.3.3大数据的3S/3I特点21
1.4大数据全生命周期22
1.5大数据对经济社会发展的影响24
1.5.1大数据引发的社会变革24
1.5.2大数据引发的经济变革25
1.5.3大数据引发的个人生活方式变化27
1.6大数据的战略意义与面临的挑战27
1.6.1大数据的战略意义27
1.6.2大数据发展面临的挑战28
课后习题29
第2章大数据的获取/30
2.1大数据获取概述31
2.1.1大数据的获取来源31
2.1.2大数据获取的概念和类型31
2.2网络爬虫32
2.2.1网络爬虫的概念与类型32
2.2.2网络爬虫的基本爬取方式33
2.2.3网络爬虫的爬取策略332.2.4数据解析35
2.3互联网数据获取方法40
2.3.1网络爬虫框架40
2.3.2采集器软件45
2.3.3其他互联网数据获取方法47
2.4离线数据获取方法47
2.4.1传感器47
2.4.2系统日志48
2.5实践案例: “无人潜水器”专利数据采集49
2.5.1采集目标49
2.5.2使用Python网络爬虫49
2.5.3使用网络爬虫框架54
2.5.4使用采集器软件57
课后习题64
第3章大数据预处理/66
3.1大数据预处理概述67
3.1.1数据存在的问题67
3.1.2数据预处理的主要任务67
3.2数据清洗68
3.2.1缺失值处理68
3.2.2重复值处理68
3.2.3异常值处理69
3.2.4逻辑错误清洗70
3.3数据集成71
3.3.1实体统一问题71
3.3.2数据冗余问题72
3.3.3数据冲突问题73
3.4数据变换74
3.4.1简单函数变换74
3.4.2数据标准化75
3.4.3数据离散化76
3.4.4数据编码77
3.5数据归约77
3.5.1数量归约77
3.5.2维度归约77
3.6实践案例: 专利情报数据预处理78
3.6.1数据清洗78
3.6.2数据集成80
3.6.3数据变换80
3.6.4数据归约82
课后习题83
第4章大数据存储技术/85
4.1大数据存储概述86
4.1.1大数据存储的关键问题与面临的挑战86
4.1.2大数据存储方式87
4.2基于文件系统的数据存储88
4.2.1基于文件系统的数据存储的特点与优势88
4.2.2分布式文件系统89
4.2.3Hadoop分布式文件系统90
4.3基于关系数据库的数据存储91
4.3.1什么是关系数据库91
4.3.2基于关系数据库的数据存储的特点与优势92
4.3.3MySQL数据库93
4.4NoSQL数据存储94
4.4.1NoSQL数据存储的特点与优势94
4.4.2键值数据库95
4.4.3列族数据库95
4.4.4文档数据库96
4.4.5图形数据库96
4.4.6关系数据库与非关系数据库的比较97
4.5新一代大数据存储技术97
4.5.1云存储技术97
4.5.2NewSQL99
4.6实践案例: Neo4j导入药材供应链数据102
4.6.1Neo4j安装102
4.6.2Neo4j启动104
4.6.3Cypher基本语句106
4.6.4药材供应链数据下载与介绍109
4.6.5图数据库构建与可视化111
附录117
课后习题118
第5章大数据分析与挖掘方法/120
5.1大数据分析与挖掘方法概述121
5.1.1大数据分析与数据挖掘的含义121
5.1.2大数据分析与挖掘的发展趋势121
5.2大数据分析的类型122
5.2.1描述性分析122
5.2.2诊断性分析127
5.2.3预测性分析128
5.2.4规范性分析129
5.3大数据分析与挖掘的经典模型130
5.3.1分类算法130
5.3.2聚类算法133
5.3.3回归分析算法136
5.3.4关联规则挖掘算法138
5.4大数据分析与挖掘的现代模型140
5.4.1神经网络140
5.4.2深度学习142
5.4.3强化学习144
5.4.4大模型147
5.5大数据分析与挖掘的应用场景148
5.5.1文本数据分析148
5.5.2图像数据分析151
5.5.3音频数据分析153
5.5.4其他非结构化数据分析155
5.6实践案例: 基于某社交平台的推文内容分析156
5.7实践案例: 基于水下无人潜水器技术专利的K?means聚类分析158
课后习题160
第6章大数据可视化展示/161
6.1数据可视化概述162
6.1.1什么是数据可视化162
6.1.2数据可视化的发展162
6.1.3大数据可视化的分类163
6.2数据可视化基础166
6.2.1数据可视化的基本流程166
6.2.2数据可视化设计原则167
6.2.3大数据可视化的图表类型168
6.3大数据可视化方法应用171
6.3.1时间数据可视化171
6.3.2关系数据可视化172
6.3.3文本数据可视化173
6.3.4比例数据可视化175
6.4大数据可视化工具与软件175
6.4.1常见的大数据可视化技术175
6.4.2ECharts180
6.4.3D3.js187
6.5实践案例: 基于某社交平台帖子数据的可视化190
6.5.1可视化实现思路190
6.5.2时间数据可视化192
6.5.3关系数据可视化199
6.5.4文本数据可视化200
6.5.5比例数据可视化201
课后习题203
第7章大数据驱动的管理变革/204
7.1大数据驱动的管理变革概述205
7.1.1大数据时代管理面临的问题和挑战205
7.1.2大数据时代管理变革的整体架构206
7.1.3大数据时代管理变革的不同阶段207
7.2大数据时代的管理思维变革208
7.2.1经验主义与数据主义208
7.2.2自上而下管理与协同参与管理209
7.2.3人工决策与智能决策211
7.3大数据时代的组织结构变革212
7.3.1组织结构变革框架212
7.3.2组织结构类型213
7.3.3组织结构变革方法214
7.4大数据时代的运营模式变革215
7.4.1研发模式变革215
7.4.2生产模式变革216
7.4.3营销模式变革217
7.5大数据时代的管理决策变革218
7.5.1传统管理决策范式218
7.5.2大数据驱动的管理决策范式转变219
7.5.3大数据驱动的管理决策框架222
7.5.4不同类型数据的管理决策223
7.6大数据时代的管理决策应用227
7.6.1商务大数据决策应用227
7.6.2交通大数据决策应用230
7.6.3医疗大数据决策应用235
课后习题240
第8章数据质量管理/242
8.1数据质量管理概述243
8.1.1数据质量的基本概念243
8.1.2影响数据质量的因素247
8.1.3数据质量管理的流程248
8.2数据质量管理技术与工具249
8.2.1数据质量管理技术249
8.2.2数据质量管理工具251
8.3数据质量评估方法252
8.3.1定性评估方法252
8.3.2定量评估方法254
8.3.3综合评估方法255
8.4数据质量提升方法259
8.4.1事前数据质量提升方法260
8.4.2事中数据质量提升方法261
8.4.3事后数据质量提升方法262
8.5实践案例: 社交媒体平台数据质量评估263
8.5.1数据源及数据集说明263
8.5.2数据质量维度264
8.5.3数据质量评估265
8.5.4数据质量评估结果266
课后习题267
第9章大数据开放共享/268
9.1大数据开放共享的定义和框架269
9.1.1大数据开放共享的定义269
9.1.2大数据开放共享的多元主体269
9.1.3大数据开放共享流程框架270
9.1.4大数据开放共享流程271
9.2大数据开放共享技术和工具272
9.2.1大数据开放共享的技术272
9.2.2大数据开放共享的工具274
9.3大数据开放共享风险分析与安全防护274
9.3.1大数据开放共享风险分析274
9.3.2大数据开放共享安全体系设计275
9.4目前大数据开放共享面临的挑战276
9.4.1大数据开放共享的隐私风险276
9.4.2大数据开放共享标准规范问题277
9.4.3公益性与收益模式间的平衡问题277
9.5政府数据开放共享应用277
9.5.1政府数据开放共享277
9.5.2实践案例: 贵州省政府数据开放共享应用278
课后习题281
参考文献/282