Hugging Face 推出SmolLM小语言 Python 编程模型-品玩

Hugging Face 推出SmolLM小语言 Python 编程模型

2024年7月22日

品玩7月22日讯，据 Hugging Face 官方消息，Hugging Face 近日推出一系列 SmolLM小模型，包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7B-Instruct-v0.1 和 Cosmopedia v2 两款模型生成的常识内容，token 量总计 6000 亿。此后 Hugging Face 团队便使用 SmolLM-Corpus 数据集训练了“SmolLM”小语言模型。

SmolLM系列模型拥有1.35 亿、3.6 亿及 17 亿参数模型，主要用于利用Python 语言编写代码。