DeepSeek 教育行业培训

by shen xl

2025-02-19
DeepSeek 发展里程碑
1
2023年7月
公司成立,由幻方量化孵化,专注通用人工智能(AGI)。
2
2023年11月
开源 7B/67B 基础模型,代码与数学能力超越 Llama2。
3
2024年5月
发布 V2 模型,推理成本降至行业 1%,引发国内大模型行业的接口价格战。
4
2024年12月
推出 V3 模型,性能比肩 GPT-4,训练成本仅为 557 万美元。
5
2025年1月20日
开源推理模型 DeepSeek-R1,引爆全网DeepSeek App 在苹果应用商店中国、美国、英国等 157 个国家登顶下载榜。1月30日,DeepSeek 的 DAU 达到 2215 万,成为全球增长最快的 APP,相当于同期 ChatGPT DAU(5323万)的 41.6%。
1 . 模型能力对比(Deepseek与OpenAI)
数据源 埃隆·马斯克 Grok 3 发布会 时间:2025-02-18
Benchmarks:关注于量化评估和标准化测试
  • 在数学测试中,DeepSeek-V3大幅领先于GPT-4o,显示出在数学能力上的优势。
  • 在科学测试中,两者得分相同,表现相当。
  • 在编程测试中,DeepSeek-V3略微领先于GPT-4o,显示出轻微的优势。
Chatbot Arena: 强调实时互动和用户体验
  • DeepSeek-V3的表现不如chatgpt-4o-latest-20250129。
  • Deepseek-R1的表现大幅度优于o1 2024-12-17。
推理模型测评:美国数学竞赛 2025(中学)
  • DeepSeek-R1 得分为79分。
  • OpenAI相关模型:其中o1得分为75分,o3mini(high)得分为87分。
  • DeepSeek-R1 在此测试中超过了o1,但低于o3mini(high)。
2-1 建设成本对比(300亿美元 VS 25亿美元
埃隆·马斯克仅用122天完成自建集群,包含10万块NVIDIA H100 GPU。之后扩展到20万块GPU,包括新增的H100和H200。
配套系统成本
294亿-437亿美元(约人民币 2116亿-3144亿元)仅GPU采购需准备 250亿-350亿美元,实际部署需追加 40%-60% 配套投入。
Deepseek 训练成本:旗舰模型DeepSeek-V3的训练成本为560万美元。这一数据由公司直接披露,且远低于美国同类模型的投入规模(如OpenAI的模型通常需数十亿美元)
根据相关信息推测,DeepSeek的母公司拥有约50,000张英伟达GPU,主要包括H800、H100以及H20等型号。这些显卡分布在量化交易、AI训练、推理及研究等多个领域,并与母公司幻方量化共享资源。需要注意的是,由于美国出口管制政策,H20是目前中国AI公司可合法采购的英伟达高端GPU型号。
购买GPU费用约7亿美元(约合人民币49亿元),服务器总资本支出约26亿美元(含硬件、运营等)
注:H100 在20年左右已经被美国出口管制,幻方量化的官方信息中提及其于2018年左右开始囤积显卡资源。
2-2 用户成本 200$ VS FREE!

用户会用脚投票

2-3 接口成本(26元 vs 1元)
输入成本
  • DeepSeek-R1 每百万 tokens 命中缓存的输入成本仅为 0.14 美元(1元)
  • GPT-o1 为 15 美元。
输出成本
  • DeepSeek-R1 每百万 tokens 的输出成本为 2.19 美元(16元)
  • GPT-o1 为 60 美元。

成本对比
  • DeepSeek-R1 的输入成本仅为 GPT-o1 的 0.93%。
  • 输出成本仅为 GPT-o1 的 3.65%。
附:TOKEN的大致换算规则
1
一杯奶茶(16元)
  • 150万字 = 约3本《哈利波特与魔法石》
(中译本约50万字/本)
  • 30天日更公众号:每天输出5000字
(总15万字 ≈ 10万token,成本1.6元)
  • 企业级客服系统:处理约9万条简短问答(20字/条)
2
一块钱可以做到
  • 生成约9篇学术论文摘要(1000字/篇)
  • 自动回复约450封邮件(200字/封)
  • 分析约3.5万条用户评论(20字/条)
3 . "OpenAi" VS "CloseAi"
deepseek 变成了 “openAi”
openAi 变成了 "closeAi"
3.1 开源:AI 的 "Android 时刻"
内核角色
LLM相当于操作系统的内核,负责协调存储、工具调用和任务调度。例如ChatGPT的Transformer架构类似于iOS内核,而DeepSeek的开源特性更接近Android的模块化设计
存储与外设
  • 上下文窗口:类比操作系统的内存管理,用于临时存储交互信息(如提示词和生成内容)
  • 多模态交互:LLM支持文本、图像、语音输入输出,类似手机操作系统的摄像头、麦克风等外设
工具调用
LLM调用代码解释器、搜索API等功能,相当于操作系统调用浏览器、计算器等应用
OpenAI
类似iOS/macOS,由单一厂商主导优化和功能迭代
DeepSeek
类似Android/Linux,依赖社区协作和多样化适配

小米 / Redmi / OPPO / 一加 / realme / vivo / iQOO / 荣耀
3.2 DeepSeek-R1 开源后的部署情况
🌐 互联网行业
  • 腾讯:微信AI搜索、腾讯元宝双模型、云服务一键部署
  • 阿里:外贸全流程优化、云服务多平台支持
  • 百度:搜索深度集成、地图旅游攻略生成
  • 华为:深圳政务云满血版部署
📶 通信运营商
  • 中国移动:13智算中心覆盖、能源行业合作
  • 中国电信:首例国产化推理落地、政务/石化场景应用
  • 中国联通:跨域调度方案、代码助手与区域赋能
💰 金融行业
  • 证券机构:中信建投/国泰君安/中金等7家完成本地部署
    → 应用于舆情监测、投研平台、智能助手(如"光小e")
    → 单日文档处理量提升90%,推理成本降低50%
附 57个公开的接入 Deepseek-r1 模型的企业&产品
3.3 部署R1满血版的成本

服务器(含显卡)约300-400万
主流GPU方案
  1. H200方案(8卡)
  • 单卡成本:约27.36万元人民币($3.8万 )
  • 总成本:约219万元人民币($30万)
  1. H100/H800方案(16卡)
  • 单卡成本:约21.6万元人民币($3万)
  • 总成本:约345.6万元人民币($48万)
华为NPU方案
  • Atlas 910B方案(32卡)
  • 单卡成本:约10.8万元人民币($1.5万 × 7.2)
  • 总成本:约345.6万元人民币($48万 × 7.2)
其他成本
  • 服务器:单台约14.4万元人民币
  • 电力:约0.72-1.44万元人民币/月(按10-20kW/节点,工业电价1元/度计算)
  • 液冷系统:约50-100万元人民币(视规模而定)
核心优势总结:高性能、低成本、开源生态
性能领先
数学推理接近 GPT-4,代码生成超越 CodeLlama。支持 128k 长文本处理。
成本优势
训练成本仅为 GPT-4 的 1/10,API 价格低至每百万 tokens 1 元。硬件需求低,支持边缘部署。
开源策略
模型权重、训练方法全公开,支持商业用途。吸引开发者共建生态,降低教育机构接入门槛。
基本概念解析
什么叫满血版?
什么是R1/V3?
什么叫RAG?
1. 模型参数:大模型的能力指标
参数就像模型的“脑细胞数量”。
每个参数是模型用来记住语言规律的开关(比如“苹果是红色的”和“香蕉是黄色的”这种关联)。参数越多,模型能记住的细节越多,回答问题的能力越强。
模型对应的就是神经网络中的层数,比如1.5B参数的模型(如DeepSeek-R1-Distill-Qwen-1.5B)通常采用32层Transformer结构,每层参数量约为4700万。
70 亿参数(7B)
  • 相当于:初、高中学生
  • 能力
  • 能处理简单任务(写短文案、基础问答)。
  • 容易犯错,比如编造不存在的信息(“幻觉”)。
  • 例子:GPT-2、部分开源小模型
1750 亿参数(175B)
  • 相当于:刚毕业的大学生
  • 能力
  • 能完成复杂任务(写代码、分析长文章、多步骤推理)。
  • 错误率大幅降低,回答更连贯。
  • 例子:GPT-3.5
6710 亿参数(671B)— 满血版
  • 相当于:全领域专家团队
  • 能力
  • 接近人类专家水平,擅长跨领域推理(比如医学+法律复合问题)。
  • 能理解深层语义(比如反讽、隐喻)。
  • 例子:Deepseek-r1 满血版
2. 模型版本的核心区别
DeepSeek-V3
V3 是通用型大语言模型,擅长自然语言处理。
上下文长度 64K,输出长度 8K
训练方法:
传统预训练+监督微调,采混合专家架构(MoE)(总参数6710亿,单Token激活370亿)
应用场景:
智能客服、文案创作、多模态内容生成
DeepSeek-R1
R1 专精复杂推理,包括数学、代码生成和逻辑链分析。
上下文长度 64K,思维力长度 32K,输出长度 8K
训练方法:
跳过监督微调,通过两阶段强化学习(GRPO算法)从基础模型直接训练,降低计算成本
应用场景:
科研计算、金融量化分析、代码生成
<think>xxx</think>
2.1 R1 模型的技术限制

对需要高准确性的任务(如教育、医疗),需要结合外部知识库验证
1
设计目标矛盾
R1专注于复杂推理与创造力,其训练强化了思维链(CoT)和深度思考能力。这就像让诗人做数学题——创造力越强,越容易“脑补”不存在的信息。
2
训练方法副作用
R1跳过了监督微调阶段,直接通过**强化学习(GRPO算法)**激发推理能力。这种训练方式鼓励模型“自由发挥”,但缺乏对事实准确性的约束。就像学生跳过基础练习直接解难题,容易忽略基本事实。
3
知识处理
大模型本质是概率接话者,当遇到训练数据中低频或缺失的信息(如“xxx的身高”),R1会基于泛化知识编造看似合理的内容。而R1的强化推理能力放大了这种“脑补”倾向,例如在文献查询中虚构作者和出版社。
4
应用场景错配
R1擅长数学代码等结构化任务,但被误用于需要严格事实核查的场景(如历史考据)。就像让物理学家写小说,专业错配导致错误率飙升。
3. RAG技术原理详解 <aiDocs 实现机制>
RAG ≠ 微调,RAG 的内容会附加到模型的上下文中,受上下文限制
RAG是检索增强生成的缩写,全称是Retrieval-Augmented Generation
RAG是一种结合外部知识库的技术框架。它旨在提升大模型的回答质量,让模型能够“开卷考试”。
  1. 索引:将文档转化为向量存入数据库。
  1. 检索:匹配最相关的知识块。
  1. 生成:结合检索结果与问题生成回答。
  • 幻觉问题:引用真实资料减少虚构内容(错误率降低约40%)
  • 知识过时:可实时更新知识库(如2025年新闻也能回答)
  • 专业不足:对接企业本地数据(如医疗/法律文档)
WPS 目前应用Deepseek的场景
我司内部未部署私有化Deepseek模型,调用的是火山引擎(字节)提供的开发者接口。
  • AI 问问(基础问答)
是金山办公旗下面向B端用户的智能对话式人工智能助手。通过AI问问,企业可以快速接入智谱清言、 Minimax、文心一言、GPT、Claude等主流大模型,一站式体验多个模型的智能服务。
  • WPS AI 智能问答(附加知识库)
能够结合企业私域知识和网络信息提供答案,通过对话形式更轻松地获得文档信息,推动企业文档沉淀和知识再利用。
  • WPS AI 智能会议助手(固化到一个场景)
将自动生成结构化纪要、AI提炼会议精华、对话式问答定位关键信息,并配备时间戳精准回溯功能,实现会议内容高效沉淀与知识复用。
回到LLM与操作系统的类比
触屏交互
  • 核心创新:通过点击、滑动、长按等手势与虚拟宠物实时互动(如抚摸汤姆猫会发出呼噜声),将iOS设备的电容式多点触控优势转化为直观的娱乐体验。
  • 用户教育:教会非技术用户理解“触摸屏不仅是替代物理按键,更是创造新交互方式”,为后续复杂手势操作(如捏合缩放)普及奠定认知基础。
商业模式
验证了免费下载+内购模式,激励应用内购生态发展。
  • 盈利模式:通过免费下载+内购装饰道具(如给汤姆猫换装),验证了F2P(Free-to-Play)模式在移动端的可行性,激励开发者探索应用内购生态。
儿童市场
推动iOS应用进入家庭教育与娱乐场景,加速渗透。
  • 家庭场景渗透:凭借卡通形象和无害化内容,成为首款被家长广泛接受的儿童向iOS应用,推动iPad等设备进入家庭教育与娱乐场景
语音交互
趣味性的“伪对话”机制,培养用户对语音交互的接受度。
  • 技术实验:用户对汤姆猫说话后,应用会以变声效果重复语音,这种“伪对话”机制让大众首次体验语音交互的趣味性,间接为Siri(2011年发布)培养用户接受度。
<应用>才是大模型能力落地的载体
在大模型时代,能够有能教育用户的「AI 原生应用」。
架构范式:从静态应用到动态智能体
  • 对话即界面(CUI)
  • 自然语言成为统一交互层,替代传统GUI的按钮/菜单体系
  • 例:用户说"规划下周三的上海出差",系统自动分解为机票预订、会议安排、差旅报销等子任务
  • 工具调用即服务(TaaS)
  • 每个智能体具备工具调用能力(如调用Wolfram Alpha进行数学计算)
  • 动态组合API服务形成解决方案,类似App Store的"快捷指令"高阶形态
交互范式:从确定性操作到概率性协作
  • 意图模糊处理
  • 接受不完整/模糊的指令(如"帮我处理那个文件"),通过多轮对话澄清需求
  • 技术支撑:思维链(CoT)与思维树(ToT)的混合推理架构
  • 多智能体协商
  • 不同领域智能体(如法律顾问、设计师)自主协商任务分配
  • 例:用户说"开发一个宠物社交App",产品经理、UI、后端工程师智能体自动组建项目组
价值范式:从功能交付到认知增强
  • 知识蒸馏器
  • 将专业领域知识(如法律条文、医学指南)转化为可对话调用的"认知插件"
  • 例:医生智能体在诊断时自动关联最新临床指南和相似病
  • 决策模拟器
  • 构建虚拟沙盒环境供用户测试决策后果(如商业策略模拟)
  • 技术实现:基于RAG的行业知识库+蒙特卡洛树搜索
商业范式:从流量变现到价值计量
  • Token经济
  • 按"智能服务单元"计费(如1个Token=处理1000字法律文书)
  • 数据飞轮效应
  • 用户反馈数据持续优化智能体,形成服务价值提升的正循环
教育行业的AI应用规划——四步走
1
2
3
4
1
文档能力是金山的「护城河」
利旧:结合校本资源库、公开教材与Aidocs数据,发挥金山文档存储、文档解析的优势,构建数据基础,提升模型准确性。
2
选用Deepseek R1模型
默认采用当前最强模型,demo阶段易于部署。未来可接入公司AI Hub,顺应技术发展趋势。
3
用户最关注的「有用」
通过AI提效,这是demo阶段核心需要设计的。大的原则要激发WPS 365产品,作为办公的平面。基于 WPS 365相关能力,做好用户与AI的协同交互体验,通过agent智能体,进行一些自动化流程的实现。
具体什么表现形式,还需要进一步讨论。永远不要奢求ai的输出一次性的满足用户所有场景
4
场景与需求的深度挖掘
初期选定智能备课,后续拓展项目化教学等场景。需求来源需自上而下,由学校或协会等单位发起(如PBL 项目化教学等场景)
教育行业的应用场景
1
2
3
4
5
技术框架的通用性
1. 私有化数据
保障数据安全与隐私,是各行业应用的基础。
2. LLM
大语言模型提供强大的语义理解和生成能力。
3. 自动化流程
基于WPS 工具的实现高效、智能的应用流程。
4. 场景
如果教育的教案场景验证通过
金融场景 → 研报
医疗场景 → 电子病历
党政场景 → 电子公文
H1 时间规划
1
3月底
完成基础数据库的建设。
目标是提升AI对教育文档的理解能力
2
4月初
Demo在单一场景下可运行。目前选定的场景是智能备课
3
对客迭代验证
整理对客的方案,划定试点。并持续跟踪用户反馈,持续改进,验证通过后吗,逐步进行产品化。
感谢聆听
Made with