Grok-1 的公开发布

三个点 2024年03月17日 1220 0

LLM

我们正在发布大型语言模型Grok-1的基本模型权重和网络架构。Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。

这是 Grok-1 预训练阶段的原始基础模型检查点，该阶段于 2023 年 10 月结束。这意味着该模型并未针对任何特定应用（例如对话）进行微调。

我们根据 Apache 2.0 许可证发布权重和架构。

要开始使用该模型，请按照github.com/xai-org/grok上的说明进行操作。

模型详细信息

基础模型是在大量文本数据上训练的，并未针对任何特定任务进行微调。
314B参数混合专家模型，其中 25% 的权重在给定标记上起作用。
2023 年 10 月，xAI 使用基于 JAX 和 Rust 的自定义训练堆栈从头开始进行训练。

最后一次编辑于 2024年03月20日 0

暂无评论

三个点

作者其他文章更多

航运新规突袭，大豆供应链扰动或利多国内豆粕

2025-10-10

5个你可以作为自由职业者开始的创造性被动收入想法

2025-08-12

报道称，苹果或将聘请谷歌利用 Gemini 为新 iPhone 提供 AI 功能

2024-03-19

Nvidia 推出 Blackwell B200，专为 AI 设计的“全球最强大芯片”

2024-03-19

Grok-1 的公开发布

2024-03-17

据彭博社报道，苹果收购初创公司 DarwinAI，为其人工智能部门增加员工

2024-03-15

OpenAI 的 Sora 文本转视频生成器将于今年晚些时候公开发布

2024-03-13

图片抓取 Midjourney 禁止竞争对手 AI 公司抓取图片

2024-03-12

OpenAI 的GPT-4.5 Turbo 在搜索引擎上泄露，可能会在 6 月推出

2024-03-12

MidJourney 推出“人物参考”功能，增强创造力

2024-03-11

苹果刚刚暗示了其人工智能计划，这可能会改变游戏规则

2024-03-09

DeepMind 校友推出 Haiper，AI 视频生成竞争愈演愈烈

2024-03-08

报告称 Perplexity 有望成为最新一家跻身独角兽地位的 AI 初创公司

2024-03-08

Inflection-2.5：迎接世界上最好的个人人工智能

2024-03-07

报告称，美国军队正在军事演习中试验生成式人工智能聊天机器人

2024-03-06

AI画奥特曼被判侵权，代理律师：并未打压行业发展

2024-02-28

不要以这种方式使用ChatGPT

2023-04-06

Stable Diffusion XL 现已推出——有什么新功能？

2023-04-05

使用 Midjourney 进行标志设计

2023-04-01

微软德国表示，GPT-4 将于下周推出——它将是多模式的

2023-03-10

常用标签