sxby shen xl
2025-02-19
Benchmarks:关注于量化评估和标准化测试

Chatbot Arena: 强调实时互动和用户体验

推理模型测评:美国数学竞赛 2025(中学)

埃隆·马斯克仅用122天完成自建集群,包含10万块NVIDIA H100 GPU。之后扩展到20万块GPU,包括新增的H100和H200。

Deepseek 训练成本:旗舰模型DeepSeek-V3的训练成本为560万美元。这一数据由公司直接披露,且远低于美国同类模型的投入规模(如OpenAI的模型通常需数十亿美元)




deepseek 变成了 “openAi”openAi 变成了 "closeAi"

附 57个公开的接入 Deepseek-r1 模型的企业&产品
参数就像模型的“脑细胞数量”。
每个参数是模型用来记住语言规律的开关(比如“苹果是红色的”和“香蕉是黄色的”这种关联)。参数越多,模型能记住的细节越多,回答问题的能力越强。模型对应的就是神经网络中的层数,比如1.5B参数的模型(如DeepSeek-R1-Distill-Qwen-1.5B)通常采用32层Transformer结构,每层参数量约为4700万。
DeepSeek-V3DeepSeek-R1<think>xxx</think>RAG ≠ 微调,RAG 的内容会附加到模型的上下文中,受上下文限制RAG是检索增强生成的缩写,全称是Retrieval-Augmented Generation

我司内部未部署私有化Deepseek模型,调用的是火山引擎(字节)提供的开发者接口。







在大模型时代,能够有能教育用户的「AI 原生应用」。
