卓越的通用能力

Mimaktsa10 · Post by **Mimaktsa10** » Sat Feb 22, 2025 9:45 am

海量训练数据：在包含 87% 代码和 13% 自然语言的数据集上进行训练，使其成为一种功能强大的编程辅助工具。
高度灵活和可扩展：提供 1B、5.7B、6.7B 和 33B 等型号尺寸，使用户能够选择最适合其需求的设置。
卓越的模型性能：在 HumanEval、MultiPL-E、MBPP、DS-1000 和 APPS 基准测试中，在公开可用的代码模型中具有最先进的性能。
高级代码完成功能：窗口大小为16K，具有填空任务，支持项目级代码完成和填充任务。

DeepSeek 法学硕士
通用大型语言模型 (LLM)，专为各种自然语言处理 (NLP) 任务而设计。它包含 670 亿个参数。它已在包含 2 万亿个英文和中文词组的庞大数据集上从头开始进行训练。

DeepSeek 法学硕士
来源：DeepSeek

：DeepSeek LLM 67B Base在推理、编柬埔寨号码数据码、数学和中文理解等领域的表现优于Llama2 70B Base。
精通编码和数学：DeepSeek LLM 67B Chat 在编码（HumanEval Pass@1：73.78）和数学（GSM8K 0-shot：84.1，Math 0-shot：32.6）方面表现出色。它还表现出了出色的泛化能力，从其在匈牙利国家高中考试中取得的 65 分优异成绩可以看出。
精通中文：根据我们的评估，DeepSeek LLM 67B Chat 在中文方面超越了 GPT-3.5。

DeepSeek-V2
原始 DeepSeek LLM 的更精致、更高效的版本，增强了推理、连贯性和任务适应性。

与 DeepSeek 67B 相比，DeepSeek-V2 性能更佳，同时训练成本降低 42.5%，使用的 KV 缓存减少 93.3%，响应速度提高 5.76 倍。

深度搜索 V2
来源：DeepSeek

大规模训练：DeepSeek-V2 使用来自多样化、高质量数据集的 8.1 万亿个标记进行训练。
高级微调：预训练后，模型经过监督微调（SFT）和强化学习（RL）以增强其功能。
经过验证的性能：评估结果表明，DeepSeek-V2 在标准基准和开放式生成任务上均表现出色。