8号的晚上mistral ai的推特突然放出了一个磁力链接,下载下来以后是一个87g的模型文件。
mistral ai 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。
shubham saboo 总结了 mixtral-8x7b 已知的一些信息,以及moe架构是什么还有就是这个moe架构和gpt-4传言的moe架构有什么区别。
- 该模型以 87 gb 的种子文件形式发布。
- 可以比喻为 gpt-4 的精简版。
- 在 x 平台发布,没有配套的新闻发布会,且对更多细节守口如瓶。
谷歌凭借其精心编排的演示视频令 ai 社区敬畏,但现在这段视频正受到广泛批评。
另一方面,开源 ai 创业公司 mistral ai 发布了一个包含 8 个 7b 级别专家的 moe 模型。
专家混合模型(moe)是什么?
专家混合(moe)是用于提高大语言模型效率和准确度的技术。这种方法将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或“专家”负责。
以下是简要说明:
- 专家层:这些是在特定领域训练有素的小型神经网络。每个专家以其独特专长的方式处理相同的输入。
- 门控网络:这是 moe 架构的决策核心。它判断哪个专家最适合处理特定输入。网络为输入数据与每个专家的兼容性打分,然后根据这些得分确定每个专家在任务中的角色。
这些组成部分共同确保正确的专家处理正确的任务。门控网络有效地将输入引导至最合适的专家,而专家则专注于他们擅长的领域。这种合作培训使得整体模型更加多才多艺、能力更强。
关于 mistral 新 moe 的详情(来自 reddit) 在对每个 token 进行推理时,只有 2 个专家被使用。
这一信息可以从模型的元数据中获得:
{“dim”: 4096, “n_layers”: 32, “head_dim”: 128, “hidden_dim”: 14336, “n_heads”: 32, “n_kv_heads”: 8, “norm_eps”: 1e-05, “vocab_size”: 32000, “moe”: {“num_experts_per_tok”: 2, “num_experts”: 8}
与 gpt-4 的比较mistral 的 8x7b 模型采用了与 gpt-4 相似的架构,但规模更小:
◆总共 8 个专家模型,而不是 16 个(减少了一半)
◆每个专家拥有 7b 参数,而不是 166b(减少了 24 倍)
◆总共约 42b 参数,而非 1.8t(减少了 42 倍)
◆与原版 gpt-4 相同的 32k 上下文限制
你现在可以在poe或者perplexity体验部署好的 mixtral-8x7b 模型:https://labs.perplexity.ai/
未经允许不得转载:凯发k8国际真人 » mistral ai开源moe模型mixtral-8x7b