Grok-1 的公开发布
  三个点 2024年03月17日 776 0
LLM

我们正在发布大型语言模型Grok-1的基本模型权重和网络架构。Grok-1 是一个由 xAI 从头开始​​训练的 3140 亿参数混合专家模型。
image.png
这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。这意味着该模型并未针对任何特定应用(例如对话)进行微调。

我们根据 Apache 2.0 许可证发布权重和架构。

要开始使用该模型,请按照github.com/xai-org/grok上的说明进行操作。

模型详细信息

  • 基础模型是在大量文本数据上训练的,并未针对任何特定任务进行微调。
  • 314B参数混合专家模型,其中 25% 的权重在给定标记上起作用。
  • 2023 年 10 月,xAI 使用基于 JAX 和 Rust 的自定义训练堆栈从头开始进行训练。
最后一次编辑于 2024年03月20日 0

暂无评论

推荐阅读
  三个点   2024年03月17日 777 0 0 LLM
三个点
作者其他文章 更多