我们正在发布大型语言模型Grok-1的基本模型权重和网络架构。Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。
这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。这意味着该模型并未针对任何特定应用(例如对话)进行微调。
我们根据 Apache 2.0 许可证发布权重和架构。
要开始使用该模型,请按照github.com/xai-org/grok上的说明进行操作。
模型详细信息
- 基础模型是在大量文本数据上训练的,并未针对任何特定任务进行微调。
- 314B参数混合专家模型,其中 25% 的权重在给定标记上起作用。
- 2023 年 10 月,xAI 使用基于 JAX 和 Rust 的自定义训练堆栈从头开始进行训练。