DeepSeek 教育行业培训

DeepSeek 教育行业培训
sx
by shen xl
 
2025-02-19
DeepSeek 发展里程碑
1
2023年7月
公司成立，由幻方量化孵化，专注通用人工智能（AGI）。
2
2023年11月
开源 7B/67B 基础模型，代码与数学能力超越 Llama2。
3
2024年5月
发布 V2 模型，推理成本降至行业 1%，引发国内大模型行业的接口价格战。
4
2024年12月
推出 V3 模型，性能比肩 GPT-4，训练成本仅为 557 万美元。
5
2025年1月20日
开源推理模型 DeepSeek-R1，引爆全网，DeepSeek App 在苹果应用商店中国、美国、英国等 157 个国家登顶下载榜。1月30日，DeepSeek 的 DAU 达到 2215 万，成为全球增长最快的 APP，相当于同期 ChatGPT DAU（5323万）的 41.6%。
1 . 模型能力对比（Deepseek与OpenAI）
数据源 埃隆·马斯克 Grok 3 发布会 时间：2025-02-18
Benchmarks：关注于量化评估和标准化测试
在数学测试中，DeepSeek-V3大幅领先于GPT-4o，显示出在数学能力上的优势。
在科学测试中，两者得分相同，表现相当。
在编程测试中，DeepSeek-V3略微领先于GPT-4o，显示出轻微的优势。
Chatbot Arena: 强调实时互动和用户体验
DeepSeek-V3的表现不如chatgpt-4o-latest-20250129。
Deepseek-R1的表现大幅度优于o1 2024-12-17。
推理模型测评：美国数学竞赛 2025（中学）
DeepSeek-R1 得分为79分。 
OpenAI相关模型：其中o1得分为75分，o3mini(high)得分为87分。
 DeepSeek-R1 在此测试中超过了o1，但低于o3mini(high)。
2-1 建设成本对比（300亿美元 VS 25亿美元）
埃隆·马斯克仅用122天完成自建集群，包含10万块NVIDIA H100 GPU。之后扩展到20万块GPU，包括新增的H100和H200。
配套系统成本
294亿-437亿美元（约人民币 2116亿-3144亿元）仅GPU采购需准备 250亿-350亿美元，实际部署需追加 40%-60% 配套投入。
Deepseek 训练成本：旗舰模型DeepSeek-V3的训练成本为560万美元。这一数据由公司直接披露，且远低于美国同类模型的投入规模（如OpenAI的模型通常需数十亿美元）
根据相关信息推测，DeepSeek的母公司拥有约50,000张英伟达GPU，主要包括H800、H100以及H20等型号。这些显卡分布在量化交易、AI训练、推理及研究等多个领域，并与母公司幻方量化共享资源。需要注意的是，由于美国出口管制政策，H20是目前中国AI公司可合法采购的英伟达高端GPU型号。
购买GPU费用约7亿美元（约合人民币49亿元），服务器总资本支出约26亿美元（含硬件、运营等）
注：H100 在20年左右已经被美国出口管制，幻方量化的官方信息中提及其于2018年左右开始囤积显卡资源。
、
2-2 用户成本 200$ VS FREE！
用户会用脚投票
2-3 接口成本(26元 vs 1元)
输入成本
DeepSeek-R1 每百万 tokens 命中缓存的输入成本仅为 0.14 美元(1元）
GPT-o1 为 15 美元。
输出成本
DeepSeek-R1 每百万 tokens 的输出成本为 2.19 美元（16元）
GPT-o1 为 60 美元。
成本对比
DeepSeek-R1 的输入成本仅为 GPT-o1 的 0.93%。
输出成本仅为 GPT-o1  的 3.65%。
附：TOKEN的大致换算规则
1
一杯奶茶（16元）
150万字 = 约3本《哈利波特与魔法石》
（中译本约50万字/本）
30天日更公众号：每天输出5000字
（总15万字 ≈ 10万token，成本1.6元）
企业级客服系统：处理约9万条简短问答（20字/条）
2
一块钱可以做到
生成约9篇学术论文摘要（1000字/篇）
自动回复约450封邮件（200字/封）
分析约3.5万条用户评论（20字/条）
3 . "OpenAi" VS "CloseAi"
deepseek 变成了 “openAi”
openAi 变成了 "closeAi"
3.1 开源：AI 的 "Android 时刻"
内核角色
LLM相当于操作系统的内核，负责协调存储、工具调用和任务调度。例如ChatGPT的Transformer架构类似于iOS内核，而DeepSeek的开源特性更接近Android的模块化设计
存储与外设
上下文窗口：类比操作系统的内存管理，用于临时存储交互信息（如提示词和生成内容）
多模态交互：LLM支持文本、图像、语音输入输出，类似手机操作系统的摄像头、麦克风等外设
工具调用
LLM调用代码解释器、搜索API等功能，相当于操作系统调用浏览器、计算器等应用
OpenAI
类似iOS/macOS，由单一厂商主导优化和功能迭代
DeepSeek
类似Android/Linux，依赖社区协作和多样化适配
小米 / Redmi / OPPO / 一加 / realme / vivo / iQOO / 荣耀
3.2 DeepSeek-R1 开源后的部署情况
🌐 互联网行业
腾讯：微信AI搜索、腾讯元宝双模型、云服务一键部署
阿里：外贸全流程优化、云服务多平台支持
百度：搜索深度集成、地图旅游攻略生成
华为：深圳政务云满血版部署
📶 通信运营商
中国移动：13智算中心覆盖、能源行业合作
中国电信：首例国产化推理落地、政务/石化场景应用
中国联通：跨域调度方案、代码助手与区域赋能
💰 金融行业
证券机构：中信建投/国泰君安/中金等7家完成本地部署
→ 应用于舆情监测、投研平台、智能助手（如"光小e"）
→ 单日文档处理量提升90%，推理成本降低50%
附 57个公开的接入 Deepseek-r1 模型的企业&产品
3.3 部署R1满血版的成本
服务器（含显卡）约300-400万
主流GPU方案
H200方案（8卡）
单卡成本：约27.36万元人民币（$3.8万 ）
总成本：约219万元人民币（$30万）
H100/H800方案（16卡）
单卡成本：约21.6万元人民币（$3万）
总成本：约345.6万元人民币（$48万）
华为NPU方案
Atlas 910B方案（32卡）
单卡成本：约10.8万元人民币（$1.5万 × 7.2）
总成本：约345.6万元人民币（$48万 × 7.2）
其他成本
服务器：单台约14.4万元人民币
电力：约0.72-1.44万元人民币/月（按10-20kW/节点，工业电价1元/度计算）
液冷系统：约50-100万元人民币（视规模而定）
核心优势总结：高性能、低成本、开源生态
性能领先
数学推理接近 GPT-4，代码生成超越 CodeLlama。支持 128k 长文本处理。
成本优势
训练成本仅为 GPT-4 的 1/10，API 价格低至每百万 tokens 1 元。硬件需求低，支持边缘部署。
开源策略
模型权重、训练方法全公开，支持商业用途。吸引开发者共建生态，降低教育机构接入门槛。
基本概念解析
什么叫满血版？
什么是R1/V3?
什么叫RAG?
1. 模型参数：大模型的能力指标
参数就像模型的“脑细胞数量”。
每个参数是模型用来记住语言规律的开关（比如“苹果是红色的”和“香蕉是黄色的”这种关联）。参数越多，模型能记住的细节越多，回答问题的能力越强。
模型对应的就是神经网络中的层数，比如1.5B参数的模型（如DeepSeek-R1-Distill-Qwen-1.5B）通常采用32层Transformer结构，每层参数量约为4700万。
70 亿参数（7B)
相当于：初、高中学生
能力：
能处理简单任务（写短文案、基础问答）。
容易犯错，比如编造不存在的信息（“幻觉”）。
例子：GPT-2、部分开源小模型
1750 亿参数（175B)
相当于：刚毕业的大学生
能力：
能完成复杂任务（写代码、分析长文章、多步骤推理）。
错误率大幅降低，回答更连贯。
例子：GPT-3.5
6710 亿参数(671B）— 满血版
相当于：全领域专家团队
能力：
接近人类专家水平，擅长跨领域推理（比如医学+法律复合问题）。
能理解深层语义（比如反讽、隐喻）。
例子：Deepseek-r1 满血版
2. 模型版本的核心区别
DeepSeek-V3
V3 是通用型大语言模型，擅长自然语言处理。
上下文长度 64K，输出长度 8K
✅训练方法：
传统预训练+监督微调，采混合专家架构（MoE）（总参数6710亿，单Token激活370亿）
✅ 应用场景：
智能客服、文案创作、多模态内容生成
DeepSeek-R1
R1 专精复杂推理，包括数学、代码生成和逻辑链分析。
上下文长度 64K，思维力长度 32K，输出长度 8K
✅ 训练方法：
跳过监督微调，通过两阶段强化学习（GRPO算法）从基础模型直接训练，降低计算成本
✅ 应用场景：
科研计算、金融量化分析、代码生成
<think>xxx</think>
2.1 R1 模型的技术限制
对需要高准确性的任务（如教育、医疗），需要结合外部知识库验证
1
设计目标矛盾
R1专注于复杂推理与创造力，其训练强化了思维链（CoT）和深度思考能力。这就像让诗人做数学题——创造力越强，越容易“脑补”不存在的信息。
2
训练方法副作用
R1跳过了监督微调阶段，直接通过**强化学习（GRPO算法）**激发推理能力。这种训练方式鼓励模型“自由发挥”，但缺乏对事实准确性的约束。就像学生跳过基础练习直接解难题，容易忽略基本事实。
3
知识处理
大模型本质是概率接话者，当遇到训练数据中低频或缺失的信息（如“xxx的身高”），R1会基于泛化知识编造看似合理的内容。而R1的强化推理能力放大了这种“脑补”倾向，例如在文献查询中虚构作者和出版社。
4
应用场景错配
R1擅长数学代码等结构化任务，但被误用于需要严格事实核查的场景（如历史考据）。就像让物理学家写小说，专业错配导致错误率飙升。
3. RAG技术原理详解 <aiDocs 实现机制>
RAG ≠ 微调，RAG 的内容会附加到模型的上下文中，受上下文限制
RAG是检索增强生成的缩写，全称是Retrieval-Augmented Generation
RAG是一种结合外部知识库的技术框架。它旨在提升大模型的回答质量，让模型能够“开卷考试”。
索引：将文档转化为向量存入数据库。
检索：匹配最相关的知识块。
生成：结合检索结果与问题生成回答。
幻觉问题：引用真实资料减少虚构内容（错误率降低约40%）
知识过时：可实时更新知识库（如2025年新闻也能回答）
专业不足：对接企业本地数据（如医疗/法律文档）
WPS 目前应用Deepseek的场景
我司内部未部署私有化Deepseek模型，调用的是火山引擎（字节）提供的开发者接口。
AI 问问（基础问答）
是金山办公旗下面向B端用户的智能对话式人工智能助手。通过AI问问，企业可以快速接入智谱清言、 Minimax、文心一言、GPT、Claude等主流大模型，一站式体验多个模型的智能服务。
WPS AI 智能问答（附加知识库）
能够结合企业私域知识和网络信息提供答案，通过对话形式更轻松地获得文档信息，推动企业文档沉淀和知识再利用。
WPS AI 智能会议助手（固化到一个场景）
将自动生成结构化纪要、AI提炼会议精华、对话式问答定位关键信息，并配备时间戳精准回溯功能，实现会议内容高效沉淀与知识复用。
回到LLM与操作系统的类比
触屏交互
核心创新：通过点击、滑动、长按等手势与虚拟宠物实时互动（如抚摸汤姆猫会发出呼噜声），将iOS设备的电容式多点触控优势转化为直观的娱乐体验。
用户教育：教会非技术用户理解“触摸屏不仅是替代物理按键，更是创造新交互方式”，为后续复杂手势操作（如捏合缩放）普及奠定认知基础。
商业模式
验证了免费下载+内购模式，激励应用内购生态发展。
盈利模式：通过免费下载+内购装饰道具（如给汤姆猫换装），验证了F2P（Free-to-Play）模式在移动端的可行性，激励开发者探索应用内购生态。
儿童市场
推动iOS应用进入家庭教育与娱乐场景，加速渗透。
家庭场景渗透：凭借卡通形象和无害化内容，成为首款被家长广泛接受的儿童向iOS应用，推动iPad等设备进入家庭教育与娱乐场景。
语音交互
趣味性的“伪对话”机制，培养用户对语音交互的接受度。
技术实验：用户对汤姆猫说话后，应用会以变声效果重复语音，这种“伪对话”机制让大众首次体验语音交互的趣味性，间接为Siri（2011年发布）培养用户接受度。
<应用>才是大模型能力落地的载体
在大模型时代，能够有能教育用户的「AI 原生应用」。
架构范式：从静态应用到动态智能体
对话即界面（CUI）
自然语言成为统一交互层，替代传统GUI的按钮/菜单体系
例：用户说"规划下周三的上海出差"，系统自动分解为机票预订、会议安排、差旅报销等子任务
工具调用即服务（TaaS）
每个智能体具备工具调用能力（如调用Wolfram Alpha进行数学计算）
动态组合API服务形成解决方案，类似App Store的"快捷指令"高阶形态
交互范式：从确定性操作到概率性协作
意图模糊处理
接受不完整/模糊的指令（如"帮我处理那个文件"），通过多轮对话澄清需求
技术支撑：思维链（CoT）与思维树（ToT）的混合推理架构
多智能体协商
不同领域智能体（如法律顾问、设计师）自主协商任务分配
例：用户说"开发一个宠物社交App"，产品经理、UI、后端工程师智能体自动组建项目组
价值范式：从功能交付到认知增强
知识蒸馏器
将专业领域知识（如法律条文、医学指南）转化为可对话调用的"认知插件"
例：医生智能体在诊断时自动关联最新临床指南和相似病
决策模拟器
构建虚拟沙盒环境供用户测试决策后果（如商业策略模拟）
技术实现：基于RAG的行业知识库+蒙特卡洛树搜索
商业范式：从流量变现到价值计量
Token经济
按"智能服务单元"计费（如1个Token=处理1000字法律文书）
数据飞轮效应
用户反馈数据持续优化智能体，形成服务价值提升的正循环
教育行业的AI应用规划——四步走
1
2
3
4
1
文档能力是金山的「护城河」
利旧：结合校本资源库、公开教材与Aidocs数据，发挥金山文档存储、文档解析的优势，构建数据基础，提升模型准确性。
2
选用Deepseek R1模型
默认采用当前最强模型，demo阶段易于部署。未来可接入公司AI Hub，顺应技术发展趋势。
3
用户最关注的「有用」
通过AI提效，这是demo阶段核心需要设计的。大的原则要激发WPS 365产品，作为办公的平面。基于 WPS 365相关能力，做好用户与AI的协同交互体验，通过agent智能体，进行一些自动化流程的实现。
具体什么表现形式，还需要进一步讨论。永远不要奢求ai的输出一次性的满足用户所有场景
4
场景与需求的深度挖掘
初期选定智能备课，后续拓展项目化教学等场景。需求来源需自上而下，由学校或协会等单位发起（如PBL 项目化教学等场景）
教育行业的应用场景
1
训
2
研
3
教
4
评
5
管
技术框架的通用性
1. 私有化数据
保障数据安全与隐私，是各行业应用的基础。
2. LLM
大语言模型提供强大的语义理解和生成能力。
3. 自动化流程
基于WPS 工具的实现高效、智能的应用流程。
4. 场景
如果教育的教案场景验证通过
✅ 金融场景  →  研报 
✅ 医疗场景  →  电子病历 
✅ 党政场景  →  电子公文
H1 时间规划
1
3月底
完成基础数据库的建设。
目标是提升AI对教育文档的理解能力
2
4月初
Demo在单一场景下可运行。目前选定的场景是智能备课
3
对客迭代验证
整理对客的方案，划定试点。并持续跟踪用户反馈，持续改进，验证通过后吗，逐步进行产品化。
感谢聆听
Made with