大家好,关于大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩 很多朋友都还不太明白,今天小编就来为大家分享关于的知识,希望对各位有所帮助!
模型竞技场的可信度再次被锤打。
最近的一篇题为《排行榜幻觉》(排行榜幻觉)引起了学术界的关注。
它指出,聊天机器人竞技场现在被认为是LLM领域的首选排名,有许多系统问题。例如:
一些大型制造商可以私人测试多个型号版本。 Llama4甚至在发布之前就测试了27个版本,然后才披露其最佳性能。数据访问是不平等的,并且专有模型比开源模型获得了更多的用户反馈数据。使用竞技场数据培训可以提高模型性能高达112。 205型型号被安静地弃用,远远超过了正式上市的47个。伟大的神卡帕西(Kapasi)也站起来,说他个人注意到了一些奇怪的事情。
有一段时间,Claude-3.5是我认为最好的模型,但在竞技场中排名很低。当时我还在线看到了类似的反馈。
关于最新的疑问,模型舞台的官方lmrena.ai回应了:
它确实可以帮助制造商进行测试,并最终发布最受欢迎的版本。但这并不意味着竞技场是有偏见的,排名反映了数百万人类的个人真实偏好。
快速刷榜不符合模型进步实际情况
为了研究这项研究,它收集了200万个竞技场战斗243款模型,并结合了私人实际测试,通过模拟实验确定了对不同情况下模型排名的影响。
已经发现了四个问题。
首先,私人测试和选择性结果报告。
允许一些大型模型制造商(例如Meta,Google,Amazon)私下测试多个模型变体,并且仅披露了表现最佳的版本。
例如,在Llama 4发布之前,Meta私下测试了27种变体,以及诸如多模式和代码之类的列表,Meta可能已经测试了43个变体。
这种“最佳的N-选择1”策略导致了排名越来越大。
例如,当测试5种变体时,预期得分增加了约20分;当测试20种变体时,它增加了约40点;当测试50种变体时,它增加了约50点。
研究小组认为,当多个大型模型制造商采用这种策略时,他们实际上是在相互竞争的情况下,以最大程度地分配各自的变体,而不是实际模型功能。
我们已经观察到Google,OpenAI和XAI在短时间内占据了名单,表明他们都采用了类似的策略。
例如,在2024年11月,Google的双子座(EXP 1114),OpenAI的Chatgpt-4O(20241120)和Google的Gemini(EXP 1121)在一周内排名第一。同样,在2025年3月4日,OpenAI的GPT-4.5和XAI的Grok-3在同一天争夺了最高点。
排名的快速变化不太可能反映出真正的技术进步,因为通常需要几个月的时间才能开发并完善一个全新的基本模型。
取而代之的是,这可能是使用“最佳n-Choice 1”策略的多个大型型号供应商同时试图优化其自身变体池中最大值的结果。
此外,该团队还发现,大型模型制造商可以撤回性能较差的模型。
其次,数据访问是不平等的。与开源模型相比,专有模型获得的用户反馈数据明显更多。
Google和OpenAI分别获得了所有测试数据的约19.2和20.4,而所有83个开放权重模型仅获得了约29.7的数据。
第三,大型模型制造商使用竞技场数据进行培训,其排名可以大大提高。
我们观察到,竞技场训练数据的百分比从0增加到70,而Arenahard的获胜率从23.5提高到49.9,增长了一倍以上。
这仍然是保守的估计,因为一些提供商具有数据访问的优势。
第四,研究发现,许多模型被“默默地贬值”(将采样率降低到近0)。
在243家公共型号中,有205个被静止地贬值,远远超过了正式上市的47个。这种方法特别影响开源和开放权重模型,从而导致排名不可靠。
在提出问题之后,研究团队还提供了5个改进建议:
提交后的分数限制了每个提供商的非正式模型数量。所有模型平等地执行了模型弃用策略的公平应用。所有模型都采用公平抽样方法来提高模型折旧透明度。即时通知过时的模型。这项研究是由Cohere团队,普林斯顿大学,斯坦福大学和其他机构的研究人员共同提出的。
大型竞技场出生两年后,由于机制的特殊性,其参考值越来越高。大型制造商必须在发布模型时来这里列出清单,甚至预热并为未发行的模型提供了预热和创造动力。
它最大的优点是,基于人类偏好评估,用户可以同时在同一平台上运行多个聊天机器人模型,例如GPT-4,ChatGpt-3.5等,并比较和分析相同的问题或任务,以便他们可以更直观地感受到不同模型之间的差异。
最近,由于Llama4排名风暴,竞技场的信誉也产生了一定的影响。
该官员现在回应了这份可疑的论文。驳斥了一些问题:
LMARENA模拟的故障:图7/8中的模拟存在问题。就像是说:NBA球员的平均三分命中率为35。斯蒂芬·库里(Stephen Curry)的三分球命中率最高。这是不公平的,因为他来自NBA球员的分布,所有球员的平均水平相同。数据是错误的:本文中的许多数据并未反映现实:请参阅几天前发布的博客,以获取来自不同提供商的测试模型数量的实际统计信息。例如,开放模型占40,而不是本文所要求的8.8! 112绩效提高的误导性陈述:此陈述基于LLM判断基准,而不是竞技场中的实际人类评估。模型提供商不仅选择“最佳分数披露”:公开排名上列出的任何模型都必须是一个向所有人开放并具有长期支持计划的生产模型。我们将继续使用新数据来测试模型至少一个月。这些关键点已经在我们的政策中明确说明了。展示非公开发布模型的分数是没有意义的:通过API或开放权重显示分数是没有意义的,因为社区无法使用这些模型或单独测试它们。这将违反我们一年前制定的政策。我们已经制定了此政策来阐明此规则:如果模型在排名列表中,则应可用。删除模型不平等或不透明的说法是错误的:排名旨在反映社区利益并排名最佳的AI模型。我们还将逐步淘汰不再向公众开放的模型,这些模型在我们与社区的私人测试中在政策中已公开陈述。至于情况,子弹可能需要一段时间才能飞行。
但是,这也提醒了AI社区,也许我们不能只参考一个列表。
Kapasi提供了另一种选择:OpenRouter。
尽管在多样性和使用方面不够好,但我认为它具有很大的潜力。
原创文章,作者:匿名,如若转载,请注明出处:https://www.xinyuspace.com/20053.html
用户评论
惦着脚尖摘太阳
这也太厉害了吧!居然拿了个模型库做公测,还能找到最出色的版本。感觉这个AI赛道竞争越来越激烈了,我期待看到大模型的未来发展究竟有多惊人。
有16位网友表示赞同!
虚伪了的真心
大模型竞技场?听起来有点热血沸腾!我一直都很想知道哪些大模型最强大,结果出来了?哪个版本的 Llama4 最强呢?
有17位网友表示赞同!
夏至离别
私下测试27个版本就取最佳成绩?这也太挑剔了!不过确实能看出他们对模型精度的要求很高。感觉未来用到的AI技术,都将会越来越先进。
有18位网友表示赞同!
有阳光还感觉冷
我觉得这个方法挺有意思的,公开测试大模型的效果也让人更加了解各个模型的优缺点,这样消费者在选择的时候就更有依据了。希望这种开放透明的态度能持续下去!
有9位网友表示赞同!
窒息
27个版本啊..我脑补一下模型开发者调试的过程简直是噩梦。感觉整个AI研发领域都是一群精神强大的人! 佩服他们的努力和毅力!
有15位网友表示赞同!
苍白的笑〃
有点担心过度强调“最佳成绩”会忽略其他方面的考虑,比如模型的稳定性、安全性等等。希望这种评分体系能够更加全面,而不是只看一个标准。
有20位网友表示赞同!
ˉ夨落旳尐孩。
这说明大模型研究领域的竞争越来越激烈了。未来大家想在人工智能领域脱颖而出,需要付出更多努力和探索才能获得领先地位!
有7位网友表示赞同!
志平
这个“大模型竞技场”模式很有前瞻性,希望能够真正推动AI技术的进步和应用,而不是追求短期利益。
有10位网友表示赞同!
羁绊你
私下测试的结果当然代表不了所有情况,毕竟大模型的实际使用场景很多样化。 还是期待看到更多真实测试的数据和案例分析呢!
有8位网友表示赞同!
无望的后半生
Llama4 的改进很让人期待,希望它能够弥补一些现有大模型的不足,为用户带来更流畅、更智能的使用体验!
有5位网友表示赞同!
半世晨晓。
虽然竞争激烈,但这对消费者来说其实是一种好事。因为最终会促使AI技术更快地发展,造福于我们所有人!
有11位网友表示赞同!
巷陌繁花丶
我觉得这种公开评测方式很有意义,能够帮助人们更好地了解不同大模型的优缺点,做出更明智的选择。
有17位网友表示赞同!
揉乱头发
27个版本经过严苛筛选,真是令人印象深刻!这代表了人工智能领域的实力和创新精神。期待未来更多优秀的AI技术出现!
有20位网友表示赞同!
何必锁我心
大模型竞技场越来越精彩了, Llama4能在这个舞台上脱颖而出吗?拭目以待!
有12位网友表示赞同!
万象皆为过客
这种不断比拼的模式确实能够推动技术进步, 但也希望在追求速度的过程中不要忽略模型伦理和安全问题,这是非常重要的!
有10位网友表示赞同!
暖瞳
其实我更关注的是大模型技术的应用场景,比如它能够如何更好地帮助我们解决实际问题。
有16位网友表示赞同!
安陌醉生
27个版本啊,那筛选过程肯定非常痛苦吧! 佩服开发者们的努力和专注!
有5位网友表示赞同!
十言i
希望Llama4能够成为一个更开放、透明的AI平台,让更多人有机会参与到这个领域的发展之中!
有17位网友表示赞同!
全网暗恋者
大型语言模型真的越来越厉害了! 未来也许我们就能与 AI 更自由地交流、合作!
有17位网友表示赞同!