这是一本立足企业应用场景的DeepSeek实战指南,结合10+实战案例,系统讲解模型的集成、应用与定制,将AI转化为实际生产力,驱动业务智能化升级。
本书主要内容如下:
?基础篇(第1、2章):介绍DeepSeek的发展历程、企业级应用需求和实战环境的搭建过程,在对自然语言处理、神经网络和大语言模型核心机制的讲解过程中,使用数值计算实例来直观呈现这些抽象的概念。
?应用篇(第3~7章):围绕Chat、AI Agent、RAG和多模态4种应用类型,介绍LibreChat、Open WebUI、camel-ai/owl、OpenManus、Dify、SearXNG这6种流行开源应用的安装、集成和使用方法,以及Janus和DeepSeek-VL2的部署过程和实际应用案例。此外,本篇还演示如何结合draw.io制作图表,以及如何使用FramePack制作具有连续剧情的长视频。
?开发篇(第8~11章):针对辅助软件开发、数据分析、医疗文书校对和智能语音客服这4种典型的企业场景进行应用开发,包括案例场景分析、架构和运行流程设计,以及完整的源码实现和测试,使DeepSeek实现代码生成、基于自然语言交互的数据统计分析、对于专业领域的文本理解与排错、多模态人机交互等功能。
?训练篇(第12~16章):针对企业训练垂域模型的需求,从DeepSeek-R1技术报告入手,讲解DeepSeek模型的微调过程,包括CoT数据集的处理、使用Unsloth进行微调,并结合Open R1项目,从SFT、GRPO和数据蒸馏三个方向,详细讲解DeepSeek-R1复现的过程。
Preface前 言
在当今这个人工智能技术飞速发展的时代,大语言模型(Large Language Model,LLM)已经成为推动产业变革的关键驱动力。DeepSeek作为国产大语言模型,凭借其卓越的性能和开放的生态系统,正在企业级应用领域展现出巨大的潜力和价值。然而,如何将这一前沿技术有效地应用到企业的实际业务场景中,依然是众多开发者和企业面临的挑战。部署DeepSeek对算力有何需求,AI Agent、RAG、多模态等众多解决方案如何服务于企业发展,开发DeepSeek应用如何从零着手,以及如何训练专属模型等问题,都需要深入探索和实践。
本书正是针对企业级应用的实际需求,从基础概念、部署实践、应用开发和模型训练等多个环节,深入剖析DeepSeek在企业中落地的方案,帮助读者更好地理解和掌握这一先进技术,使其赋能于企业的数字化转型升级。
本书旨在为企业开发者、技术决策者提供一份全面、实用的DeepSeek技术指南。与侧重于理论或个人应用场景的DeepSeek书籍不同,本书尤其注重企业级,既注重讲解技术原理、代码实例、应用开发流程和模型训练过程,又关注读者如何在真实企业环境中应用这些技术解决实际问题。
本书特点
本书围绕DeepSeek的企业级应用场景,从基础知识到操作实践、从部署到开发、从使用通用模型到训练专用模型,循序渐进。
本书具有以下特点。
(1)开源开放
书中涉及的应用程序案例和开发库都是开源项目,所调用的大模型服务以本地部署的DeepSeek为主,不使用线上云服务。书中案例代码不依赖额外的API,均可在本地部署模型的支持下调试和运行。并且,本书所有示例源码也已在GitHub开源。
(2)场景与技术丰富
本书涵盖Chat、AI Agent、RAG和多模态4种应用类型,以及辅助软件开发、数据分析、医疗文书校对、智能语音客服4种实际的企业场景,涉及大量开发框架及开源项目,并且在微调训练过程中使用多种模型复现技术,供读者广泛学习或者针对性地深入研究。
(3)内容成体系
想要熟练实践企业级DeepSeek的应用与训练,需要先了解自然语言处理、神经网络和大语言模型的基础知识。本书会介绍与之相关的基础理论,并通过运行代码这种直观的方式逐步讲解大语言模型的核心机制,使读者了解完整的知识体系。
内容来源
在写作过程中,笔者精心选择DeepSeek应用开发的高频场景案例,使用多种开源主流技术,力求为读者提供足够多元且有深度的DeepSeek实战知识。具体来说,本书的写作素材主要源于以下几个方面。
实践案例:笔者实践开发了大量DeepSeek应用程序,本书有效融合了这些经验。并且,笔者为本书开发了一系列不同场景的示例程序作为案例。
官方资源:笔者参考了DeepSeek技术报告及各种开发框架的官网资料,确保书中的知识点准确、前沿。
培训课件:笔者作为讲师,为软件企业开展了大量人工智能实训课程,本书内容融合了笔者的讲授心得和学生反馈。
读者对象
本书所讲的技术知识丰富、操作步骤详细、源代码完整,适合指导企业中的DeepSeek使用者和开发者实践。
对于使用者来说,DeepSeek的原理、部署、安装及开源应用项目等,能够满足其在模型部署与使用上的需求。
对于开发者来说,开发篇演示的丰富案例,以及训练篇所讲的DeepSeek训练、微调和复现知识,能够满足其在开发进阶和模型训练上的需求。
如何阅读本书
本书分为4篇,共16章,深入阐述DeepSeek在企业级应用场景的解决方案。具体内容如下。
基础篇(第1和2章):介绍DeepSeek的发展历程、企业级应用需求和实战环境的搭建过程,在对自然语言处理、神经网络和大语言模型核心机制的讲解过程中,使用数值计算实例来直观呈现这些抽象的概念。
应用篇(第3~7章):围绕Chat、AI Agent、RAG和多模态4种应用类型,介绍LibreChat、Open WebUI、camel-ai/owl、OpenManus、Dify、SearXNG 6种流行
开源应用的安装、集成和使用方法,以及Janus和DeepSeek-VL2的部署过程和实际应用案例。此外,本篇还演示如何结合draw.io制作图表,以及如何使用FramePack制作具有连续剧情的长视频。
开发篇(第8~11章):针对辅助软件开发、数据分析、医疗文书校对和智能语音客服这4种典型的企业场景进行应用开发,包括案例场景分析、架构和运行流程设计,以及完整的源码实现和测试,使DeepSeek实现代码生成、基于自然语言交互的数据统计分析、对于专业领域的文本理解与排错、多模态人机交互等功能。
训练篇(第12~16章):针对企业训练垂域模型的需求,从DeepSeek-R1技术报告入手,讲解DeepSeek模型的微调过程,包括CoT数据集的处理、使用Unsloth进行微调,并结合Open R1项目,从SFT、GRPO和数据蒸馏三个方向,详细讲解DeepSeek-R1复现的过程。
实践要求及说明
(1)设备
在本书所有示例中,对于DeepSeek模型版本,均选择了参数规模在8B及以下的蒸馏模型,运行这些模型占用的GPU资源都在22GB以内。在涉及大模型微调和多模态应用的案例中,也通过相关技术框架将模型对GPU资源的占用压缩到24GB以内。
基于此,在读者跟随本书进行实践之前,需要准备至少1张24GB规格的显卡(最好是推理型显卡),如RTX3090、RTX4090等。
需要说明的是,DeepSeek模型的部署采用vLLM方式,不能在Windows系统中运
行,因此建议读者将模型或应用程序部署到一台独立的、安装了Linux操作系统的服务器或者配置足够的个人计算机(PC)上。
(2)操作系统
本书涉及大量实战,建议在Ubuntu 22.04系统上运行。虽然Ollama等方案支持Windows系统并可通过CPU加载DeepSeek模型,但在这种环境下难以完成完整且高效的实践,尤其是训练篇的操作通常需要GPU才能实现。
(3)命令格式
书中涉及的文件下载、编辑、复制等操作均以Linux命令形式描述,Windows用户需要根据实际情况灵活操作。
在操作系统命令行中执行时,Linux系统支持对较长的命令采用反斜杠\换行,命令执行结果不会发生变化,而在Windows系统中要将\换成^。
例如,以下命令在Linux系统中运行正常。
pip install -r requirements.txt -i \
/>该命令如果要在Windows系统上正常运行,则需要把首行行尾的\替换成^。
pip install -r requirements.txt -i ^
/>在操作系统命令行中执行的命令,如果以#开头,则为注释,无须执行。笔者一般会将多条命令使用注释作为区隔,以免误认。
(4)源码运行
为避免书中展示的代码缩进影响程序运行效果,建议读者在调试时使用从本书配套代码库下载的完整代码。
(5)主机名约定
为了统一和规范书中程序的配置与访问,减少歧义,本书采用以下约定:
本机地址:使用127.0.0.1表示。
GPU服务器:使用主机名deepseek-dev表示。
在一些Docker部署场景中,由于容器中不便使用域名deepseek-dev来访问宿主机或外部主机,会用IP地址172.16.62.167(读者可根据自己的情况设置)来指代GPU服务器。所以在本书中,deepseek-dev和172.16.62.167表示同一台机器。
主机名对应的IP地址,可以通过DNS解析来确定:在Windows系统中修改C:\Windows\System32\drivers\etc\HOSTS文件,在Linux系统中修改/etc/hosts文件。
勘误和支持
本书的所有源代码和简要操作步骤,已在 />虽然笔者在写作时已极力谨慎,反复测试验证,但书中仍可能出现一些错误或者不准确之处,恳请读者指正。若读者需要勘误或提出宝贵意见,可通过发送邮件到little51@126.com联系作者,或者在
2025年12月
高强文
资深AI技术专家与项目导师。作为数字技术正高级工程师,专注于人工智能大语言模型应用开发、开源社区开发与运营。
AI领域创业先锋,宁夏回族自治区劳动模范。现任互链高科(北京)技术发展有限公司总经理,银川方达电子系统工程有限公司董事长。20多年来,一直从事信息化、智能化产品的研发与管理工作。
近年来积极投身于开源事业,开发运营aliendao.cn、gitclone.com和opendao.cn等开源社区,在GitHub上贡献了20多个开源代码库。著有《大模型项目实战:多领域智能应用开发》,旨在为开发者提供AI技术实践指导。
目 录Contents
前 言
基础篇
第1章 DeepSeek概述 4
1.1 DeepSeek介绍 5
1.1.1 发展历程 5
1.1.2 系列模型简介 6
1.1.3 主要优势 8
1.2 DeepSeek企业级应用概述 10
1.2.1 应用场景 10
1.2.2 算力支撑 12
1.2.3 安全与合规 12
1.3 实战环境准备 13
1.3.1 硬件准备 14
1.3.2 操作系统准备 14
1.3.3 安装推理卡驱动 14
1.3.4 安装CUDA环境 15
1.3.5 安装Python虚拟环境 16
1.3.6 环境验证 16
第2章 LLM基础知识 17
2.1 自然语言处理 17
2.2 神经网络 22
2.2.1 神经网络的基本结构 22
2.2.2 神经网络的训练过程 25
2.2.3 基于神经网络的推理过程 27
2.3 LLM的核心机制 28
2.3.1 Transformer 28
2.3.2 自注意力机制 29
2.3.3 多头注意力机制 34
应用篇
第3章 DeepSeek部署 38
3.1 DeepSeek系列模型分类 38
3.2 大模型的精度与量化 39
3.2.1 机器学习中的数据类型 39
3.2.2 大模型量化技术 40
3.3 部署算力的估算 42
3.3.1 DeepSeek内存占用情况 42
3.3.2 算力估算结果 43
3.4 CPU部署 45
3.4.1 Ollama在Windows上的
安装 45
3.4.2 Ollama在Linux上的安装 45
3.4.3 DeepSeek在CPU上的部署 46
3.5 GPU部署 48
3.5.1 vLLM安装 48
3.5.2 DeepSeek在GPU上的部署 49
3.5.3 算力资源监控 50
3.5.4 验证部署成果 50
第4章 构建Chat应用 54
4.1 企业应用场景 55
4.2 LibreChat的部署和应用 56
4.2.1 LibreChat简介 56
4.2.2 LibreChat的安装与配置 56
4.3 Open WebUI的部署和应用 60
4.3.1 Open WebUI简介 60
4.3.2 Open WebUI的安装与配置 61
4.4 结合draw.io制作图表 64
4.4.1 设计提示词 64
4.4.2 使用DeepSeek生成XML文件 65
4.4.3 用draw.io打开XML文件 65
4.4.4 高级制表应用 66
第5章 构建AI Agent 68
5.1 企业应用场景 69
5.2 camel-ai/owl的部署与应用 69
5.2.1 camel-ai/owl简介 69
5.2.2 camel-ai/owl安装 70
5.2.3 运行camel-ai/owl应用 71
5.3 OpenManus的部署与应用 74
5.3.1 OpenManus简介 74
5.3.2 OpenManus安装 74
5.3.3 运行OpenManus应用 75
5.3.4 运行OpenManusWeb应用 76
第6章 构建RAG应用 79
6.1 企业应用场景 79
6.2 RAG的工作原理 80
6.3 Dify:整合知识库与LLM服务 82
6.3.1 Dify简介 82
6.3.2 Dify安装 82
6.3.3 运行Dify应用 86
6.3.4 企业场景中的Dify优化 91
6.4 SearXNG:集成联网搜索功能 93
6.4.1 SearXNG简介 93
6.4.2 SearXNG安装 94
6.4.3 Open WebUI与SearXNG整合 98
第7章 构建多模态应用 100
7.1 企业应用场景 100
7.2 Janus:文生图与图生文 101
7.2.1 Janus简介 101
7.2.2 Janus安装 101
7.2.3 Janus应用 103
7.3 DeepSeek-VL2:识别多模态内容 105
7.3.1 DeepSeek-VL2简介 105
7.3.2 DeepSeek-VL2应用 106
7.4 FramePack:生成长视频 107
7.4.1 FramePack简介 107
7.4.2 FramePack应用 108
开发篇
第8章 辅助软件开发应用 114
8.1 开发要点 115
8.2 案例场景 115
8.3 关键原理 116
8.3.1 架构 116
8.3.2 运行流程 117
8.4 实现过程 118
8.4.1 Node.js安装 118
8.4.2 新建React.js项目 119
8.4.3 文件结构 119
8.4.4 源代码 120
8.4.5 程序调试 127
8.5 部署方法 129
第9章 数据分析应用 130
9.1 开发要点 131
9.2 案例场景 131
9.3 关键原理 132
9.3.1 架构 132
9.3.2 运行流程 133
9.4 实现过程 134
9.4.1 源代码 135
9.4.2 程序测试 139
第10章 医疗文书校对应用 142
10.1 开发要点 143
10.2 案例场景 143
10.3 关键原理 144
10.3.1 架构 144
10.3.2 运行流程 145
10.4 实现过程 146
10.4.1 源代码 147
10.4.2 程序测试 152
第11章 智能语音客服应用 154
11.1 开发要点 155
11.2 案例场景 155
11.3 关键原理 156
11.3.1 架构 156
11.3.2 运行流程 157
11.4 实现过程 158
11.4.1 源代码 158
11.4.2 程序测试 163
训练篇
第12章 基于技术报告的DeepSeek-R1实现原理解析 170
12.1 训练DeepSeek-R1-Zero 172
12.1.1 推理能力 172
12.1.2 基于GRPO的强化学习 172
12.1.3 训练成果 174
12.2 训练DeepSeek-R1 174
12.2.1 冷启动 174
12.2.2 面向推理的强化学习 175
12.2.3 拒绝采样和监督微调 176
12.2.4 全场景强化学习 176
12.3 蒸馏模型 176
第13章 DeepSeek微调 178
13.1 微调的基本原理 179
13.1.1 按参数调整范围划分 179
13.1.2 按训练算法划分 180
13.2 微调过程 180
13.2.1 源代码 181
13.2.2 语料格式说明 186
13.2.3 微调实战 186
13.2.4 验证微调结果 188
第14章 基于SFT复现DeepSeek 190
14.1 SFT技术简介 191
14.2 实现原理 191
14.3 复现过程 193
14.3.1 下载源码 193
14.3.2 搭建基本环境 193
14.3.3 用源码安装open-r1库 194
14.3.4 下载基础模型和数据集 194
14.3.5 SFT训练 195
14.3.6 验证复现结果 196
第15章 基于GRPO复现DeepSeek 197
15.1 GRPO技术简介 197
15.2 实现原理 198
15.2.1 复现流程 198
15.2.2 GRPO奖励策略 198
15.3 复现过程 202
15.3.1 GRPO训练 202
15.3.2 验证复现结果 203
第16章 基于数据蒸馏复现
DeepSeek 204
16.1 数据蒸馏技术简介 204
16.2 实现原理 205
16.3 复现过程 206
16.3.1 源程序 206
16.3.2 环境搭建 207