EE芯视频
广告
清微智能算力服务器基于DeepSeek模型的蒸馏训练
27播放 · 2025-02-07 14:19:55

使用DeepSeek-R1模型对NuminaMath-TIR等数据集的问题进行推理解答,生成的思考过程和答案作为Qwen2-7B模型蒸馏训练数据集,基于清微智能算力服务器加载蒸馏训练数据集和Qwen2-7B的模型权重及配置文件,进行Qwen2-7B模型的蒸馏训练 。

0 条评论
接下来播放
自动连播
更多视频推荐
190观看