本书是写给社会科学类专业的青年学子或者研究人员的社会统计学入门教材,内容深入浅出、文字通俗易懂,致力于帮助读者建立统计思维、掌握社会统计学基本原理和方法。本书共16章,分为四篇,第一篇统计基础,包含统计思维、描述性统计和概率与分布初步等内容;第二篇统计推断,包含抽样分布、参数的假设检验、方差分析、非参数检验、相关与回归等内容;第三篇统计模型,包含统计建模基础、线性回归模型应用基础、回归诊断、虚拟变量回归模型等内容;第四篇写给零基础学习者的R语言基础,包含R基本操作、R语言数据组织与基本数据管理、高级数据管理、R语言数据可视化等内容。
更多科学出版社服务,请扫码获取。
主持国家自然科学基金、中国博士后科学基金、教育部人文社会科学基金项目、湖北省自然科学基金项目、湖北省教育厅科学技术研究计划优秀中青年人才项目、湖北省教育厅人文社会科学项目等科研项目9项。
目录
前言
第一篇 统计基础
第1章 统计思维 3
1.1 统计是一种思维方式 3
1.1.1 统计学家和普通人想得不一样 3
1.1.2 统计思维的特征 4
1.2 统计是大数据分析的内核 5
1.2.1 我们已置身大数据时代 5
1.2.2 大数据时代的世界 6
1.2.3 大数据的底层逻辑是统计分析 7
1.3 统计分析是为了寻找真相 8
1.4 统计数字会撒谎 10
1.5 本章小结 11
第2章 描述性统计 13
2.1 数据测量层次 14
2.1.1 定类尺度 14
2.1.2 定序尺度 15
2.1.3 定距尺度 15
2.1.4 定比尺度 16
2.2 集中趋势描述 17
2.2.1 平均数 17
2.2.2 中位数 18
2.2.3 四分位数 19
2.2.4 众数 19
2.3 离散趋势描述 20
2.3.1 极差 20
2.3.2 方差 21
2.3.3 标准差 21
2.3.4 离散系数 22
2.4 本章小结 22
第3章 概率与分布初步 24
3.1 概率是决策的基础 24
3.1.1 人类渴望预知未来,未来充满了不确定性 24
3.1.2 概率是不确定性情形决策的重要工具 24
3.1.3 需要注意的决策谬误 25
3.2 概率的基本知识 25
3.2.1 概率的基本概念 25
3.2.2 概率的基本规则 26
3.3 概率分布及分布曲线 29
3.3.1 概率分布 29
3.3.2 分布曲线 30
3.4 正态分布 31
3.4.1 正态分布概述 31
3.4.2 正态分布曲线的特征 31
3.4.3 正态分布曲线的Z值 32
3.4.4 正态分布曲线的应用 33
3.5 本章小结 34
第二篇 统计推断
第4章 抽样分布 37
4.1 为什么要抽样 37
4.2 可以用样本均值推断总体均值吗 37
4.3 抽样分布的概念 39
4.4 t分布 40
4.5 大数定理和中心极限定理 43
4.5.1 大数定理 43
4.5.2 中心极限定理 44
4.6 区间估计 46
4.7 本章小结 48
第5章 参数的假设检验 49
5.1 假设检验的基本逻辑 49
5.2 单样本均值假设检验 51
5.2.1 什么是单样本均值假设检验 51
5.2.2 单样本均值假设检验的步骤 52
5.3 双样本均值假设检验 56
5.3.1 什么是双样本均值假设检验 56
5.3.2 双样本均值假设检验的步骤 57
5.4 配对样本均值假设检验 62
5.4.1 什么是配对样本均值假设检验 62
5.4.2 配对样本均值假设检验的步骤 63
5.5 本章小结 68
第6章 方差分析 69
6.1 什么是方差分析 69
6.2 方差分析的6个步骤 69
6.3 单因素方差分析 72
6.3.1 什么是单因素方差分析 72
6.3.2 单因素方差分析的步骤 73
6.4 双因素方差分析 74
6.4.1 什么是双因素方差分析 74
6.4.2 双因素方差分析的步骤 75
6.5 本章小结 79
第7章 非参数检验 80
7.1 单样本卡方检验——定类变量假设检验的有效工具 80
7.1.1 什么是卡方值 80
7.1.2 卡方分布与假设检验 82
7.1.3 单因素拟合优度检验 83
7.1.4 列联表与双因素独立检验 85
7.1.5 卡方检验使用的注意事项 88
7.2 配对样本非参数检验 89
7.2.1 什么是配对样本 89
7.2.2 两配对样本非参数检验——符号检验 90
7.2.3 两配对样本非参数检验——符号秩检验 92
7.2.4 多配对样本非参数检验——Friedman检验 96
7.3 独立样本非参数检验 98
7.3.1 什么是独立样本 98
7.3.2 两独立样本的非参数检验——秩和检验 99
7.3.3 两独立样本的非参数检验——曼-惠特尼U检验 101
7.3.4 多独立样本的非参数检验——Kruskal-Wallis检验 103
7.4 本章小结 105
第8章 相关与回归 107
8.1 相关和因果 107
8.1.1 什么是相关关系 107
8.1.2 相关不等同于因果 108
8.2 如何识别和测度相关关系 109
8.2.1 散点图 109
8.2.2 从方差到协方差 110
8.2.3 皮尔森相关系数——标准化协方差 111
8.2.4 偏相关 113
8.2.5 相关系数的显著性检验 113
8.2.6 不同数据类型的相关性检验 114
8.2.7 相关性检验的R语言实现 115
8.3 回归分析 117
8.3.1 线性回归模型的几何解释 118
8.3.2 回归系数和截距 119
8.3.3 拟合优度R2 119
8.3.4 多元线性回归 120
8.3.5 回归的假设检验 121
8.3.6 回归分析的R语言实现 123
8.4 本章小结 124
第三篇 统计模型
第9章 统计建模基础 127
9.1 统计建模的一个故事 127
9.2 统计建模的一般思路 128
9.3 案例分析 132
9.4 本章小结 136
第10章 线性回归模型应用基础 138
10.1 回归分析应用概述 138
10.2 建立线性回归数学模型 140
10.2.1 建立线性回归数学模型的一般步骤 140
10.2.2 多元线性回归模型与解释变量、控制变量 141
10.3 线性回归数学模型求解与结果分析 142
10.3.1 回归方程参数估计与回归系数的解释 142
10.3.2 线性回归模型的拟合优度 145
10.3.3 线性回归模型的假设检验 145
10.4 本章小结 147
第11章 回归诊断 149
11.1 回归模型的前提假设 149
11.2 残差的诊断 150
11.2.1 线性检验 150
11.2.2 独立性检验 151
11.2.3 残差方差齐性检验 152
11.2.4 残差正态性检验 154
11.3 数据的诊断 155
11.3.1 异常点 155
11.3.2 强影响点 156
11.4 回归诊断的R语言实现 157
11.5 本章小结 161
第12章 虚拟变量回归模型 162
12.1 一个错误的解释和一个错用的模型 162
12.1.1 结果误读 162
12.1.2 模型误用 163
12.2 什么是虚拟变量 164
12.2.1 虚拟变量的含义 164
12.2.2 虚拟变量对回归模型选择的影响 164
12.3 解释变量为虚拟变量的回归模型 164
12.3.1 加法形式的回归模型 164
12.3.2 乘法形式的回归模型 166
12.4 被解释变量为虚拟变量的回归模型 167
12.4.1 Logistic回归 168
12.4.2 glm()函数 169
12.4.3 数据分析与结果的解读 169
12.4.4 虚拟变量回归模型的拟合与诊断 170
12.5 本章小结 172
第四篇 写给零基础学习者的R语言基础
第13章 R基本操作 175
13.1 编程是门“手艺” 175
13.1.1 为什么要学习编程 175
13.1.2 编程可以学会吗 176
13.2 编程语言是工具 176
13.2.1 编程语言的分类 176
13.2.2 编程语言的区别 176
13.2.3 编程语言的选择 177
13.3 初识R 177
13.3.1 R的特点 177
13.3.2 R安装与操作界面 177
13.3.3 与R的简单互动 179
13.3.4 工作空间 181
13.3.5 脚本 182
13.3.6 包 183
13.4 本章小结 184
第14章 R语言数据组织与基本数据管理 185
14.1 R的基本数据类型 185
14.1.1 什么是数据类型 185
14.1.2 R常用的数据类型 186
14.2 R的基本运算 188
14.2.1 算术运算 188
14.2.2 比较运算 189
14.2.3 逻辑运算 190
14.2.4 运算次序 191
14.3 R的数据结构 192
14.3.1 一维同质表达——向量 192
14.3.2 二维同质模式——矩阵 193
14.3.3 矩阵多维延展——数组 194
14.3.4 对象有序集合——列表 195
14.3.5 二维不同模式——数据框 196
14.3.6 特殊变量集合——因子 198
14.4 R的数据输入 199
14.4.1 使用键盘输入数据 199
14.4.2 从带分隔符的文本文件导入数据 200
14.4.3 导入Excel数据 201
14.4.4 导入SPSS数据 201
14.4.5 导入SAS数据 202
14.4.6 导入Stata数据 202
14.4.7 导入其他数据 202
14.5 R的基本数据管理 203
14.6 本章小结 210
第15章 高级数据管理 211
15.1 数据处理案例介绍 211
15.2 R内置函数 212
15.3 R处理数据的步骤 217
15.4 R控制流 221
15.5 用户自编函数 223
15.6 本章小结 225
第16章 R语言数据可视化 226
16.1 常见单变量统计图绘制 227
16.1.1 直方图 227
16.1.2 柱状图 228
16.1.3 饼图 229
16.1.4 箱线图 230
16.2 常见双变量统计图 230
16.2.1 并列箱线图 230
16.2.2 散点图 232
16.2.3 堆叠柱状图 233
16.2.4 分组柱状图 233
16.3 使用ggplot2进行高级绘图 234
16.3.1 ggplot2简介 234
16.3.2 为散点图添加回归拟合线 236
16.3.3 分面图 238
16.3.4 利用ggplot2描述数据分布 240
16.4 本章小结 243
主要参考文献 245