mistral ai开源moe模型mixtral-凯发k8国际真人

8号的晚上mistral ai的推特突然放出了一个磁力链接，下载下来以后是一个87g的模型文件。

mistral ai 成立于 2023 年 5 月，是一家法国人工智能初创公司，也是为数不多来自欧洲的大模型开源领域的明星团队。

shubham saboo 总结了 mixtral-8x7b 已知的一些信息，以及moe架构是什么还有就是这个moe架构和gpt-4传言的moe架构有什么区别。

谷歌凭借其精心编排的演示视频令 ai 社区敬畏，但现在这段视频正受到广泛批评。
另一方面，开源 ai 创业公司 mistral ai 发布了一个包含 8 个 7b 级别专家的 moe 模型。

专家混合模型（moe）是什么？

专家混合（moe）是用于提高大语言模型效率和准确度的技术。这种方法将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或“专家”负责。

以下是简要说明：

专家层：这些是在特定领域训练有素的小型神经网络。每个专家以其独特专长的方式处理相同的输入。
门控网络：这是 moe 架构的决策核心。它判断哪个专家最适合处理特定输入。网络为输入数据与每个专家的兼容性打分，然后根据这些得分确定每个专家在任务中的角色。
这些组成部分共同确保正确的专家处理正确的任务。门控网络有效地将输入引导至最合适的专家，而专家则专注于他们擅长的领域。这种合作培训使得整体模型更加多才多艺、能力更强。
关于 mistral 新 moe 的详情（来自 reddit）在对每个 token 进行推理时，只有 2 个专家被使用。
这一信息可以从模型的元数据中获得：
{“dim”: 4096, “n_layers”: 32, “head_dim”: 128, “hidden_dim”: 14336, “n_heads”: 32, “n_kv_heads”: 8, “norm_eps”: 1e-05, “vocab_size”: 32000, “moe”: {“num_experts_per_tok”: 2, “num_experts”: 8}

与 gpt-4 的比较mistral 的 8x7b 模型采用了与 gpt-4 相似的架构，但规模更小：

◆总共 8 个专家模型，而不是 16 个（减少了一半）
◆每个专家拥有 7b 参数，而不是 166b（减少了 24 倍）
◆总共约 42b 参数，而非 1.8t（减少了 42 倍）
◆与原版 gpt-4 相同的 32k 上下文限制

你现在可以在poe或者perplexity体验部署好的 mixtral-8x7b 模型：https://labs.perplexity.ai/