推特吵架吵出篇论文！谢赛宁团队新作iREPA只要3行代码(推特宣布)

fjmyhfvclm2025年12月17日 01:52阅读:3人科技

推特吵架吵出篇论文！谢赛宁团队新作iREPA只要3行代码(推特宣布) 99xcs.com

henry 发自凹非寺

量子位 | 公众号 QbitAI

要说真学术，还得看推特。

刚刚，谢赛宁自曝团队新作iREPA其实来自4个多月前的，一次与网友的辩论。

久久小常识(www.99xcs.com)™

这场短暂的线上辩论虽然以谢赛宁被网友说服告终，但在3个多月后，居然有了意料之外的后续——

多个团队合作，沿着这一思路写出了一篇完整的论文，而且核心框架仅需3行代码。

久久小常识(www.99xcs.com)™

致谢部分还感谢了当时参与讨论的网友。

一篇推特引发的学术论文

事情是这样的。

展开全文

一位网友在8月份表示：

别再痴迷于ImageNet-1K的分类分数了！自监督学习（SSL）模型应该专门为稠密任务（如REPA、VLM等）进行训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而不是[CLS]token所代表的全局分类性能。

别再痴迷于ImageNet-1K的分类分数了！自监督学习（SSL）模型应该专门为稠密任务（如REPA、VLM等）进行训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而不是[CLS]token所代表的全局分类性能。

久久小常识(www.99xcs.com)™

（注：稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务，这类任务需要精确的空间和局部细节信息，而不仅仅是全局分类标签）

对于网友的观点，谢赛宁表示：

不，使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关，而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题，而是高层语义与低层像素相似性之间的差别。

不，使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关，而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题，而是高层语义与低层像素相似性之间的差别。

对于谢赛宁的反驳，网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。

久久小常识(www.99xcs.com)™

与此同时，另一位网友也加入了战斗：

这是个合理的问题。为了做直接对比，在没有DINOv3早期checkpoint的情况下，或许可以用REPA来比较PEspatial和PEcore。其中，PEspatial可以理解为：将PEcore的Gram-anchor对齐到更早的网络层，并结合SAM2.1。

这是个合理的问题。为了做直接对比，在没有DINOv3早期checkpoint的情况下，或许可以用REPA来比较PEspatial和PEcore。其中，PEspatial可以理解为：将PEcore的Gram-anchor对齐到更早的网络层，并结合SAM2.1。

久久小常识(www.99xcs.com)™

对此，谢赛宁表示：

非常好！感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了（G/14，448 分辨率），希望我们很快就能拿到一些结果。

非常好！感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了（G/14，448 分辨率），希望我们很快就能拿到一些结果。

3个多月后，谢赛宁表示自己之前的判断站不住脚，而且这次的论文反而带来了更深入的理解。

还有贴心小贴士，提示网友可以看看致谢部分。

久久小常识(www.99xcs.com)™

对于自己在致谢中被提到，参与讨论的网友之一表示很有意思：

也谢谢你一路跟进！被致谢提到我也很受宠若惊。

也谢谢你一路跟进！被致谢提到我也很受宠若惊。

谢赛宁还表示，这次讨论本身就是一次小实验——他想看看，一种新的“线上茶水间效应”是否真的能够发生。

他很享受这种状态：先有分歧、有争论，再通过真正的实验和投入，把直觉拉回到可被验证的科学结论上。

不得不说，这样开放、即时、可纠错的学术讨论，确实值得多来一些。

接下来，我们就一起来看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的主要因素

承接上面的讨论，这篇最新论文探讨了一个核心的基础问题：

在用预训练视觉编码器表征来指导生成模型时，究竟是表征的哪一部分在决定生成质量？

是其全局语义信息（ImageNet-1K上的分类准确率）还是其空间结构（即补丁tokens之间的成对余弦相似度）？

论文给出的结论是：更好的全局语义信息并不等于更好的生成，空间结构（而非全局语义）才是表征生成性能的驱动力。

传统观念（包括谢赛宁本人）认为具有更强全局语义性能的表征会带来更好的生成效果，但研究却表明更大的视觉编码器反而可能带来更差的生成性能。

其中，线性检测准确率只有约20%的视觉编码器，反而可以超过准确率>80%的编码器。

而且，如果试图通过CLS token向patch token注入更多全局语义，生成性能还会被拉低。

与此同时，研究还发现生成效果更好的表征，往往具有更强的空间结构（可通过空间自相似性指标来衡量）：

也就是说，图像中某一部分的token会如何关注图像中其他区域的token。

在具体的研究方法上，研究通过一次大规模的定量相关性分析对这一观察进行了细化验证：分析覆盖了27 种不同的视觉编码器（包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等）以及 3种模型规模（B、L、XL）。

久久小常识(www.99xcs.com)™

而在进一步的评测中，空间信息的重要性被进一步拔高：即便是像SIFT、HOG这样的经典空间特征，也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。

久久小常识(www.99xcs.com)™

在测试得出结论后，论文又基于现有的表征对齐（REPA）框架进行分析和修改，提出了iREPA。

投影层改进：将REPA中标准的MLP投影层替换为一个简单的卷积层。
空间规范化：为外部表征引入一个空间规范化层。

投影层改进：将REPA中标准的MLP投影层替换为一个简单的卷积层。

空间规范化：为外部表征引入一个空间规范化层。

这些简单的修改（如在DeCo框架下的实现）旨在保留并强化空间结构信息，相比原始的REPA方法能显著提升性能。

值得一提的是iREPA，只需3行代码即可添加到任何表示对齐方法中，并且在各种训练方案（如REPA、REPA-E、Meanflow 以及最近推出的 JiT）中都能实现持续更快的收敛。

久久小常识(www.99xcs.com)™

参考链接

[2]https://arxiv.org/abs/2512.10794

相关内容

人过中年注意疾病的来袭～脾胃的问题(中年人注意什么)

人过中年注意疾病的来袭～脾胃的问题(中年人注意什么)

人过中年需警惕脾胃疾病，常见问题主要有脾胃虚弱、慢性胃炎、胃食管反流病、功能性消化不良、胃溃疡等。脾胃......

肺热的症状(肝火肺热的症状)

肺热的症状(肝火肺热的症状)

造成肺热的原因有很多，一般认为是肺内部淤积热量才会出现肺热的情况。对于肺热，一般还会出现咳嗽的症状，在......

湿气重会便秘吗(湿热便秘的症状)

湿气重会便秘吗(湿热便秘的症状)

湿气重可能会引起便秘，但并非所有便秘都与湿气重有关。湿气重通常与脾胃功能失调、水液代谢异常等因素相关，......

帕金森会产生并发症吗(帕金森会引起哪些并发症)

帕金森会产生并发症吗(帕金森会引起哪些并发症)

帕金森病通常会产生并发症，主要包括运动障碍、自主神经功能障碍、精神障碍、睡眠障碍和感觉障碍等。帕金森病......

这些建议可有效预防男性不育(有以下几种建议英语)

这些建议可有效预防男性不育(有以下几种建议英语)

男性不育可通过调整生活方式、避免环境危害、控制基础疾病、科学补充营养及定期体检等方式预防。男性不育可能......

精索静脉曲张也有轻重缓急(精索静脉曲张也是右侧疼吗)

精索静脉曲张也有轻重缓急(精索静脉曲张也是右侧疼吗)

精索静脉曲张可分为轻度、中度和重度三种类型，具体分级与静脉曲张程度、症状表现及睾丸功能影响有关。精索静......

是什么导致了男人身体的亚健康(是什么导致了男人性冷淡)

是什么导致了男人身体的亚健康(是什么导致了男人性冷淡)

男性亚健康状态通常由遗传因素、不良生活习惯、心理压力、环境污染以及慢性疾病等因素共同导致。亚健康是指介......

卡介苗化脓后如何护理(卡介苗化脓后怎么护理)

卡介苗化脓后如何护理(卡介苗化脓后怎么护理)

卡介苗化脓后可通过保持局部清洁干燥、避免搔抓摩擦、观察脓液性状、避免使用药物涂抹、定期复查等方式护理。......

孩子换奶粉拉肚子怎么办(换奶粉宝宝腹泻)

孩子换奶粉拉肚子怎么办(换奶粉宝宝腹泻)

孩子换奶粉拉肚子可通过调整喂养方式、补充水分、使用益生菌制剂、观察症状变化、及时就医等方式处理。孩子换......

我国人工智能产业大爆发预计2025年规模超万亿(我国人工智能产业规模占全球的比例约为)

我国人工智能产业大爆发预计2025年规模超万亿(我国人工智能产业规模占全球的比例约为)

12月14日，中国信息通信研究院透露，我国人工智能产业正快速发展，预计到2025年核心产业规模将突破万亿元。今年，生产制造环节的大模型应用显著增长，应用案例占比从19.9%提升至25.9%，这一变化推动了人工智能产业规模的快速增长...

vivo S50系列四色齐发，每一款都美到心坎里(vivos5手机有几个颜色)

vivo S50系列四色齐发，每一款都美到心坎里(vivos5手机有几个颜色)

vivo S50系列深谙此道，它不靠堆料博眼球，而是用四种精心调制的色彩，精准戳中当代年轻人的心巴。它不甜腻，也不冷淡，恰到好处地平衡在理性与感性之间，专治日常灵感枯竭。它不是沉闷的暗色，而是如黑巧般醇厚笃定…...

网友吐槽2.1克旧金加1300元换戒指竟变1.9克(一克2.8一斤多少钱)

网友吐槽2.1克旧金加1300元换戒指竟变1.9克(一克2.8一斤多少钱)

近日，福建厦门。一网友发帖吐槽，自己在周六福专柜以2.1克旧金（单价853元克）补1300元差价，共花费3119元换购了一枚折后戒指。店员未告知该戒指是一口价产品，仅称“补完差价和旧戒指差不多”，且单据、标签均无克重标识。该网友两天后称重...

陪护系统|禾高护工系统|陪护系统源码(陪护项目)

陪护系统|禾高护工系统|陪护系统源码(陪护项目)

家属互动模块允许远程查看患者状态、护理进展及医生建议，支持图文留言与视频通话集成，在保障隐私的前提下增强情感连接。兼容主流物联网协议，可接入智能床垫、定位手环、环境传感器等硬件设备，构建设备联动的智慧…...

运动步数打卡红包抽奖小程序：趣味运动与营销双赢的创新解决方案(打卡步数赚钱)

运动步数打卡红包抽奖小程序：趣味运动与营销双赢的创新解决方案(打卡步数赚钱)

运动步数打卡红包抽奖小程序是一款深度融合运动健康与趣味营销的创新工具，支持微信小程序、微信公众号及 PC 多端适配，通过关联微信运动数据，以步数打卡、点亮地标、抽奖赢礼为核心玩法，兼具娱乐性与传播性。产品采…...

纳兰明珠：大器晚成，与索额图同为奸臣却得善终，只因三大奇功(纳兰明珠是谁的大臣)

纳兰明珠：大器晚成，与索额图同为奸臣却得善终，只因三大奇功(纳兰明珠是谁的大臣)

明珠之所以能够保全性命，是因为他为康熙立下了三大功劳：一是支持康熙裁撤三藩；二是参与收复台湾，虽然他没有直接参与攻台，但他在战略上的关键决策不可忽视；三是与康熙一起策划抵御沙俄，参与雅克萨之战，为大…...

呼和浩特市显示屏集成服务商(呼和浩特市现状)

呼和浩特市显示屏集成服务商(呼和浩特市现状)

在2026年，舒益隆智能科技荣获了“企业资信等级证书、诚信经营示范企业证书”等多项荣誉，这不仅是对其产品质量的认可，也是对其服务水平的肯定。在呼和浩特市显示屏集成服务市场，舒益隆智能科技以其专业的服务、可靠…...