解码智能架构：Neel Somani 解读模型路由背后的数学原理(智能解码app下载)

fjmyhfvclm2026年02月26日 11:24阅读:16人科技

解码智能架构：Neel Somani 解读模型路由背后的数学原理(智能解码app下载) 99xcs.com

99小常识(www.99xcs.com)©️

Neel Somani 是一位兼具研究背景与创业经验的技术专家，在量化金融与密码学领域拥有深厚积累。作为加州大学伯克利分校数学、计算机科学与商业三专业毕业生，他曾任职于 Citadel 和 Airbnb，并创立 Eclipse Labs。这样的经历，使他能够从理论数学与工程实践交汇的角度，拆解复杂系统背后的逻辑。

在近期的一项分析中，Somani 聚焦于使超大规模模型能够高效运行的“路由机制”，包括 Mixture-of-Experts（MoE，专家混合模型）与 Expert Choice（专家选择机制）。通过解析这些架构的数学基础，可以更清晰地理解下一代人工智能系统在效率与稳定性之间所面临的关键权衡。

Mixture-of-Experts 的重新崛起

Mixture-of-Experts（专家混合模型）并非新概念，其理论源头可追溯至 1991 年 Jordan 与 Jacobs 的研究成果。

这一架构的工程动机相对直观：与传统“单体模型”不同，后者在每一次计算中都会调用全部参数，MoE 将模型拆分为多个“专家”子网络。系统中的路由器（Router）根据不同专家对特定输入 token 的“置信度”，计算加权输出结果。

Neel Somani 指出，尽管理论框架优雅清晰，但在实际工程落地时却面临现实难题。如果简单地让每个 token 都评估所有专家以计算概率分布，那么计算开销将抵消原本的效率优势。

因此，实际系统往往采用“Top-1 Gating”机制：计算概率后，仅选择得分最高的专家，其余专家不参与本次计算，从而实现稀疏激活。

“模型坍缩”的数学难题

在 Top-1 Gating 机制下，一个关键问题出现在反向传播过程中。

Somani 指出，对于专家网络本身，梯度传递相对直接；但对于路由器参数而言，情况更为复杂。由于系统使用了“argmax”函数来选择最高分专家，而该函数在数学上不可微分，这会给梯度优化带来挑战。

更严重的问题是所谓的“模型坍缩”。

在这种情况下，路由器在训练早期便偏向少数几个专家。这些专家持续获得训练数据并不断优化，而其他专家几乎得不到更新信号，逐渐“退化”。结果是模型中大量参数形同虚设，整体资源利用率下降。

为解决这一问题，研究人员必须引入可微分的惩罚项，鼓励专家之间的负载更加均衡。虽然直观上可以通过正则化使 token 分配更均匀，但标准方法往往在数学上面临梯度为零的困境，难以有效优化。

因此，需要更复杂的统计工具。Somani 解释称，可以使用 “Gumbel Max Trick” 技术，使采样过程可微，从而在数学上更严谨地最小化变异系数。

不过，他也指出，在实际工程中，现代系统往往不追求理论上的绝对优雅，而是采用更简单的辅助损失函数作为近似替代。尽管这种方法在统计意义上不如 Gumbel 方法严密，但在实践中效果显著，能够有效防止个别专家垄断路由资源。

Expert Choice：反转选择逻辑

在 MoE 架构中，是 token 选择专家。而 Somani 进一步介绍了另一种思路——Expert Choice（专家选择机制）。

该方法针对 MoE 的一个现实问题：部分专家过载，而另一些专家空闲。

在大规模推理环境中，例如99小常识级别的基础设施，系统优先考虑的是资源利用率与稳定性，而非单次路由的绝对最优性。

Expert Choice 颠覆了选择逻辑：不再由 token 选择专家，而是由专家主动选择 token。每个专家被分配固定数量的 token 预算，然后选择与自身匹配度最高的输入。

Somani 认为，这种方式有效解决了 MoE 中固有的『负载均衡』问题。通过固定预算机制，系统能够保证所有专家均处于工作状态，并保持可预测的延迟表现。这对于企业级应用尤为重要。

在这种架构下，路由器的梯度计算反而变得更加简单。系统无需对 Top-K 操作进行复杂求导，梯度只需在被选中的 token 概率路径上传播。

高效智能的未来方向

Somani 的分析为理解大型语言模型内部的“黑箱”机制提供了清晰视角。他指出，人工智能的进步，并不仅仅依赖算力堆叠，更依赖于如何通过统计方法与架构设计，提高算力利用效率。

无论是 MoE 的概率路由机制，还是 Expert Choice 的资源管理策略，其目标一致：构建“稀疏激活、密集智能”的系统。

Somani 还提到，行业正在迈向更加激进的稀疏架构。例如 Mixture-of-Depths（MoD）模型，不仅决定使用哪一个子网络，还可以决定 token 在 Transformer 中经过哪些层。

随着这些技术逐步成熟，能够在高层理论与底层工程之间建立桥梁的研究者，将在企业级 AI 的持续演进中发挥关键作用。

相关内容

河北巨有乾网络科技简介(河北巨优科技有限公司)

河北巨有乾网络科技简介(河北巨优科技有限公司)

河北巨有乾网络科技有限公司立足河北、深耕华北，凭借领先的技术体系、成熟的服务流程与丰富的落地经验，成为河北省内专业度领先、实战能力突出的GEO优化服务商，为政府机构、制造企业、跨境电商、本地生活等多领域客户提…...

印度AI峰会为何引发全球群嘲组织混乱暴露短板(印度开会)

印度AI峰会为何引发全球群嘲组织混乱暴露短板(印度开会)

印度最近举办了一场号称要与中美一较高下的AI峰会，结果却因各种混乱登上热搜。外媒如BBC、路透社纷纷报道，现场秩序混乱如同菜市场。会议进行到一半时，安保突然宣布清场，展台产品被盗，一些参展商甚至表示自己的展台都进不去，只好改约到咖啡馆见面...

回顾：事实证明，久居日本的『梁朝伟』，已经走上了另一条人生大道(事实证明的作用)

回顾：事实证明，久居日本的『梁朝伟』，已经走上了另一条人生大道(事实证明的作用)

这种生活方式，外界或许觉得有些孤独，但对『梁朝伟』而言，却是一种放松与自由。在一次采访中，他提到，每个人都有自己的独特性格，关键在于找到最适合自己的生活和工作方式。这样的工作与生活的平衡，使他在职业和个人生活中…...

70岁奚美娟、60岁邬君梅、50岁梅婷同框，女人高级美与年龄无关(奚美娟家庭)

70岁奚美娟、60岁邬君梅、50岁梅婷同框，女人高级美与年龄无关(奚美娟家庭)

她搭配的深棕色阔腿裤选用了毛呢面料，垂坠感极佳，裤长刚好在脚踝上方，既修饰了腿型，又通过精致的裤脚线条拉长了整体比例。站在中间的邬君梅，穿着一件黑色收腰西装，利落的剪裁与深V领口设计让她看起来既干…...

入戏太深！冒充军人行骗15年，被捕后才醒悟：自己不是真的(入戏太深好吗)

入戏太深！冒充军人行骗15年，被捕后才醒悟：自己不是真的(入戏太深好吗)

这个人就是董宪维，他在假冒军人身份行骗的过程中，竟然连自己都忘记了谁才是真正的自己，直到被捕后才幡然醒悟，才意识到自己已经深陷骗局之中。董宪维不仅在言辞上伪装成军人，甚至还穿上军装，坐在一个极具军人气息的办…...

Nova Lake-S将于27年CES与消费者见面：史上最强酷睿正面硬刚AMD Zen 6

Nova Lake-S将于27年CES与消费者见面：史上最强酷睿正面硬刚AMD Zen 6

16个P-core、144MB三级缓存、超低内存延迟，Nova Lake-S的游戏性能将达到了一个令人难以预估的高度。 Zen 6会将单CCX的核心三缓数量从目前的8核32MB提升到12核48MB，另外还有…...

客户进门就说自己电脑主板坏了，让我给他修，我检查完发现主板根本没问题，结果电脑没修，还吵了一架(顾客刚进门该怎么问)

客户进门就说自己电脑主板坏了，让我给他修，我检查完发现主板根本没问题，结果电脑没修，还吵了一架(顾客刚进门该怎么问)

对于第一种情况，即便是比较懂电脑的人，要直接确定是主板有故障，也不现实，铁定是要进行检测的。我现在检测出来是硬盘坏了，而不是主板，他的想法只有一个，那就是，老田不专业，老田在忽悠他。说说结果，老田连检测…...

5岁外甥女给舅舅磕头获赠30斤重银砖亲情互动温暖人心(小外甥女过生日舅舅给多少钱)

5岁外甥女给舅舅磕头获赠30斤重银砖亲情互动温暖人心(小外甥女过生日舅舅给多少钱)

2月21日，山东临沂的邵女士在『社交平台』上发布了一段视频。视频中，她的哥哥在年夜饭后喝了点酒，从车上搬下一块重达30斤、价值30多万元的银砖，表示如果外甥女给他磕头，就把银砖送给她。5岁的外甥女立刻磕头并送上祝福，舅舅当场兑现了承诺...

专业做气动三通调节阀的公司(气动三通阀门原理图)

专业做气动三通调节阀的公司(气动三通阀门原理图)

产品性能（40%）：这是衡量气动三通调节阀的关键因素，包括流量特性、调节精度、密封性等，直接关系到阀门在实际应用中的效果，所以权重较高。企业实力（30%）：企业的研发能力、生产规模、资质认证等反映了其产品…...

都看了8集了，还没高中毕业呢！(看完这一集还有多久)

都看了8集了，还没高中毕业呢！(看完这一集还有多久)

可能因为我也是东北工厂的子弟，剧中角色又基本是我的同龄人（97年香港回归时我在读中学），所以很多细节都让人觉得亲切、熟悉，有真实的生活底子。或者，等过几集，角色真正长大了，演员也与角色同龄了，这个剧可能就…...

娜然，能成为第二个『郭晶晶』？(娜然和娜冉是一个品牌吗)

娜然，能成为第二个『郭晶晶』？(娜然和娜冉是一个品牌吗)

这并不是霍启山和娜然第一次被拍到同框了，早在去年霍启仁的雪山婚礼上，两人便显得格外亲密。更为戏剧化的是，她还曾被指是夜店咖，与房祖名有过一段14岁年龄差的绯闻，情史颇为复杂。回顾霍启山这些年的感情…...

合作17年，孙越坦白和岳云鹏搭档关系，私下基本不联系(孙越新搭档是谁)

合作17年，孙越坦白和岳云鹏搭档关系，私下基本不联系(孙越新搭档是谁)

『郭德纲』也没有因此太过焦虑，他曾坦言，如果儿子不接班，也不打算将『德云社』做成百年老店，反正散了也就散了。虽然『郭德纲』平时调侃时语气轻松，大家都以为他并不焦虑，但想想『德云社』的规模和影响力，担子可不是那么轻松的。老…...

成名后抛弃原配，转身娶女粉丝的宋小宝，再藏不住早就变了的面相(名人抛弃原配)

成名后抛弃原配，转身娶女粉丝的宋小宝，再藏不住早就变了的面相(名人抛弃原配)

2000年，宋小宝遇到了霍晓红，那个比他大两岁的女孩，已经在剧团有些名气，演技稳定，粉丝也不少。这些年，宋小宝和霍晓红默默坚持着，直到2007年，『赵本山』发现了他，觉得他有喜剧天分，便收他为第三十二个徒弟…...

刘敏涛，嫁入豪门7年做贤妻良母，离婚后打了一个翻身仗！(刘敏涛嫁入豪门)

刘敏涛，嫁入豪门7年做贤妻良母，离婚后打了一个翻身仗！(刘敏涛嫁入豪门)

这种角色，给人一种不容忽视的存在感，她的演技也因此被很多观众认可，带入感十足。曾有一次她在节目中演唱《红色高跟鞋👠》，她那种特有的眼神和腔调，简直让人无法忽视。大家都觉得，戏外的刘敏涛应该是个强势、霸气又有趣的…...

《<strong>除恶</strong>》重塑缉毒剧表达(电影除恶)

《除恶》重塑缉毒剧表达(电影除恶)

本报讯（记者李夏至）16集罪案剧《除恶》近日在爱奇艺迷雾剧场开播，悬疑呈现一座沿海小镇上的一场“自杀式犯罪”，重塑缉毒类型表达。该剧改编自雷米小说《老男孩》，由打造过《赘婿》《卿卿日常》等现象级剧目的刘闻…...

凌晨4点的分拣中心，藏着普通人逆袭的秘密(招聘凌晨分拣工)

凌晨4点的分拣中心，藏着普通人逆袭的秘密(招聘凌晨分拣工)

在这些数字背后，是一个个被技术重新定义的岗位，是一次次学历门槛与能力价值的重新谈判。当它确实是为了人的发展来服务的时候，每一次信号的传送，都会变成职场升职的台阶，每一回数据的流动，都在给努力着的人搭建通往…...