难点一:硬件要求

“满血” DeepSeek 模型参数量约为 671 B,按照 FP16 浮点精度换算,则模型所需的 VRAM 开销为:

$$671\ \mathrm{B} \times 2\ \mathrm{bytes} ≈ 1432\ \mathrm{B}\ \mathrm{bytes} ≈ 1432\ \mathrm{GB}.$$

😱😱😱

但是考虑到 DeepSeek 是一个 MoE 模型,推理时只有 37B 参数被激活,所以如果要求是“能跑就行”的话,应该不至于这么夸张,但是实际效果未知。

(不知道是否)可行的最低丐版配置(2 块 A100,但是实际运行效果未知,我看网上已有的生产环境部署都是 16 块 A100 甚至 H100、H200 起步):

https://github.com/ljm565/deepseek-r1-local-serving

难点二:配套接口

本地化部署后,需要设计一套调用接口。

  • 前端(已有开源方案):https://github.com/hernandack/deepseek-webui
  • 后端(根据需求确定)
    • 在数据库中记录用户提问历史(可行)
    • 自动推荐用户想问的问题(可行,但实现难度取决于具体想要达到的效果)

比如结合其他用户提问历史进行推荐就比较难实现,涉及推荐算法

  • 其他可能的难点
    • 大模型微调(从没接触过),但是大模型本身应该是具备适应用户个性化需求的能力的
    • 文本、图像资料上传(文本应该比较好处理,图像可能存在困难)