门萨智商测试题

但当我看完它被小学生钟表题虐哭的视频后……对不起,我先笑为敬!一、这届AI有多逆天?1.中餐馆通缉令投资人Deedy拍了张手写中文菜单(没地址没店名),AI扫一

各位老铁们,大家好,今天由我来为大家分享门萨智商测试题,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!

但当我看完它被小学生钟表题虐哭的视频后……对不起,我先笑为敬!

一、这届AI有多逆天?

1. 中餐馆通缉令

投资人@Deedy拍了张手写中文菜单(没地址没店名),AI扫一眼就说:\\”纽约法拉盛湘菜馆‘洞庭春’,地址135-25 40th Rd。\\”

老板都懵了:\\”我家菜单又没挂大众点评!\\”

2. 瀑布打卡侦探

网友传了张瀑布自拍照,AI直接报出美国亚利桑那州具体坐标,连旁边泡了5年的烂木头都扒出来了。

当地旅游局连夜抢注账号:\\”这AI比导游还懂景点!\\”

二、全网狂欢背后的翻车王

![钟表图:指针指向9:50,表面有反光]

当工程师让AI看这张图时,画风突变:

• 第一回合

AI:\\”这是早上8:50,阳光角度符合北半球冬季特征\\”

网友:\\”可这是室内钟表啊大哥!\\”

• 第二回合

AI把图倒过来看:\\”应该是3:10,根据阴影面积计算……\\”

小学生留言:\\”长针指10是50分!\\”

• 终极翻车

折腾7分21秒后,AI终于蒙对答案。同门师弟o4-mini更绝,把9:50说成8:50,还列了三大科学依据。

评论区炸锅:\\”136智商就这?我三年级儿子都能秒杀!\\”

三、撕开AI的学霸假面

问了硅谷搞算法的朋友,真相太扎心:

1. 谷歌地图十级学者

这AI考试作弊!它把谷歌街景、卫星地图、大众点评全背下来了,根本不是真会推理。不信你拍个城中村大排档试试?立马抓瞎!

2. 幼儿园级常识黑洞

分不清时针分针、看不懂玻璃反光、算不出简单角度——这些小学生都会的题,AI全靠瞎蒙。MIT最新报告实锤:AI跨领域推理的错误率高达43%,比摇骰子还不靠谱!

3. 资本家的财富密码

听说有公司拿这技术忽悠投资人,张口就是\\”颠覆谷歌地图\\”。内行冷笑:\\”不就是个图片搜索引擎?你问它钟表题试试?\\”

四、普通人的防坑指南

1. 救命别靠AI定位

曾有驴友爬山信了AI坐标,结果被导到悬崖边。记住:涉及人身安全,永远相信纸质地图+本地向导。

2. 装X有风险

同事用AI分析老板朋友圈照片,想拍马屁却定位到竞争对手公司。现在他天天在厕所刷马桶。

3. 反向鉴伪技巧

门萨智商测试题

如果AI出现以下症状,立刻关掉:

• 频繁联网搜答案(说明它根本不会)

• 报出一串你看不懂的数据(心虚甩专业术语)

• 说\\”可能\\”\\”或许\\”(其实在瞎猜)

五、未来展望:给AI配块儿童手表?

OpenAI内部文件说正在研发\\”防反光补丁\\”,网友更损:\\”建议给AI配小天才电话手表,看时间直接问同桌。\\”

但说实话,我倒希望AI保持点蠢萌:

• 昨天让它查公司楼下咖啡厅,结果定位到老板小三的公寓(大瓜!)

• 朋友测试外卖地址,AI把\\”望京SOHO\\”定位到\\”望京医院太平间\\”

你看,这才是打工人需要的AI——职场谍战神器+八卦挖掘机!

(文末小字:以上测试纯属虚构,如有雷同……那你老板可能真有问题!)

如果AI能帮你干一件事,你选?

A. 查对象定位 B. 扒明星黑料 C. 写周报糊弄老板

门萨儿童智商测试题

下面的智商测试面向6到10岁的儿童。满分160分,平均分数是98.45。

估算智商的公式是:智商=(解答的题目数×160)÷36

比如,如果您答对了22道题,那么您的智商大约为22×160/36=98。

答案:

01——4;02——5;03——1;04——2;05——6;06——3;07——6;08——2;

09——1;10——3;11——4;12——5;13——4;14——5;15——1;16——6;

17——2;18——1;19——3;20——4;21——6;22——3;23——5;24——2;

25——2;26——6;27——1;28——2;29——1;30——3;31——5;32——6;

33——4;34——3;35——4;36——5

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺榜首

编辑:编辑部 HXZ

OpenAI o1,在IQ测试中拿到了第一名!

大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。

紧随其后的,就是Claude-3 Opus和Bing Copilot,分别取得了第二名和第三名。

注意,这套智商测试题,属于门萨会员的离线智商测试,不在任何AI训练数据中,因此结果非常具有参考性。

著名数学家陶哲轩也对o1进行了实测,发现自己向模型提出一个措辞模糊的数学问题后,它竟然能成功识别出克莱姆定理。

更巧的是,就在o1发布之后,OpenAI的研究副总裁Mark Chen发表观点称:如今的大型神经网络,可能已经具有足够的算力,在测试中表现出一些意识了。

相信AI具有意识的行业领导者,如今已经有了一串长长的名单,包括但不限于——

  1. Geoffrey Hinton(人工智能教父,被引用次数最多的AI科学家)
  2. Ilya Sutskever(被引次数第三多的AI科学家)
  3. Andrej Karpathy

如今,业内许多人都相信AI具有意识,而且正在等待「奥弗顿之窗」进一步打开,从而使公众愿意接受这一点。

甚至有人预言:在2024/2025年,AI一定会具有意识,因为如今模型的行为已经明显表现出感知能力了。

有网友发现,o1不仅是对经验性的STEM学科很强,它甚至能够假设出一种全新的意识理论。

有人觉得,o1向无限推理模型迈出的一小步,已经具备意识的雏形。

门萨智商测试题

陶哲轩:o1竟能识别出克莱姆定理

而在实测中,陶哲轩发现:o1模型在数学方面的的性能更强了!

首先,他提出了一个措辞模糊的数学问题,如果能搜索文献并找到合适的定理,即克莱姆定理(Cramer\\’s theorem),就可以解决这个问题。

之前的实验中,GPT能够提到一些相关概念,但细节都是胡编乱造的无意义内容。

而这一次,o1成功识别出了克莱姆定理,并给出了令人满意的答案。

完整回答:https://shorturl.at/wwRu2

在下面这个例子中,提出的问题是更有挑战性的复变函数分析,结果同样好于之前的GPT系列模型。

在有大量提示词和引导的情况下,o1能输出正确且表述良好的解决方案,但不足之处在于无法自行产生关键的概念性想法,而且犯了明显错误。

陶哲轩形容,这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,GPT给人的感觉则是一个完全无法胜任工作的学生。

可能只需要经过一两次迭代,再加上其他工具的集成,比如计算机代数包和证明辅助工具,就能让o1模型蜕变为「称职的研究生」,届时这个模型将在研究任务中发挥重要作用。

完整回答:https://shorturl.at/ZrJyK

上下滑动查看

上下滑动查看

上下滑动查看

第三个实验中,陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理,需要先将其分解为子引理并给出形式化表述,但不需要给出证明。

定理的内容,具体来说,是将素数定理的一种形式建立为另一种形式的推论。

实验结果也很不错,因为模型理解了这个任务,并对问题进行了合理的初步分解。

然而,可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据,生成的代码中也有几处错误。

尽管仍有缺陷,但这次实验结果已经能让人预见到o1在数学研究中的实际应用。

类似的模型如果针对Lean和Mathlib进行微调,并集成到集成开发环境(IDE)中,在形式化项目中将会发挥极大的作用。

在之前的多次演讲中,陶哲轩曾反复强调过AI工具在定理形式化中的应用,看来大神的预言又会成真了。

完整回答:https://shorturl.at/OGtjt

计算机教授用动画揭秘:o1如何花更多时间思考?

o1学会用CoT思考更长时间的过程中,究竟是取得了哪些重要突破,才造成了关键性的提升?目前我们只能从已有信息中做一些猜测。

比如,基于已有信息和自己的理解,科罗拉多大学博尔德分校计算机教授Tom Yeh就专门制作了一个动画,讲解OpenAI是如何训练o1模型花更多时间思考的。

关于训练,报告中有非常简短的一句话:

「通过强化学习,o1 学会了磨练其思维链并改进策略。」

这句话中的两个关键词是:强化学习(RL)和思维链(CoT)。

  • 在RLHF+CoT中,CoT token也会被输入到奖励模型中来获得分数,以更新LLM,从而实现更好的对齐;而在传统的RLHF中,输入只包含提示词和模型响应。
  • 在推理阶段,模型学会了先生成CoT token(可能需要长达30秒的时间),然后才开始生成最终响应。这就是模型如何花更多时间去「思考」的方式。

在报告列出的贡献者中,有两个人值得关注:

  • Ilya Sutskever,基于人类反馈的强化学习(RLHF)的发明者,出现他的名字意味训练o1模型时仍然用到了RLHF。
  • Jason Wei,著名的思维链论文的作者。他去年离开Google Brain加入了OpenAI。他的出现意味着CoT现在是RLHF对齐过程的重要组成部分。

不过,有很多重要的技术细节OpenAI并没有透露,比如奖励模型是如何训练的,如何获取人类对「思考过程」的偏好等等。

免责声明:动画仅代表教授的合理推测,并不保证准确性

团队分享庆功视频,分享「啊哈」时刻

关于研究中取得重要突破的瞬间,在下面这个视频中,给了我们更多线索。

在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。

门萨智商测试题

在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。

所以,团队成员们分别经历了怎样的「啊哈」时刻呢?

有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。

就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。

还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。

对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。

这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说,自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。

然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。

而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道:我们终于做出了不一样的东西!

这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。

Open o1团队开放团队问答,直面质疑

大家对o1模型的细节都有诸多疑问,因此,OpenAI o1团队也表示,将在X上组织一个AMA(Ask Me Anything)的活动,通过下方评论和用户互动。

网友们非常踊跃,提出了诸多关键细节问题。

比如,有没有办法强迫模型,让它思考的时间长一点?

团队的回答是:目前还没有这个选项,但会考虑改进,让用户更好地控制模型思考的时间。

有人向Jason Wei提问道:在o1范式下见过什么逆缩放示例,看到模型变得更差?此外,他还质疑目前的基准测试排名缺乏足够的证据。

Jason Wei回答说,自己并不知道,相信其他人见过。在某些类型的提示下,OpenAI o1-preview似乎并不比GPT-4o好多少,甚至还稍差一些。

而对于LLM排行榜如何公平比较的问题,Jason Wei表示自己也不知道。但他可以肯定:无论怎样努力地提示GPT-4o,都不可能让它获得IOI金牌。

还有人提出了一个很多人都感到困惑的问题:o1究竟是不是一个在幕后运行CoT,然后提供答案或模型的系统呢?它是否使用了特殊token进行推理,在输出时隐藏了这些token?

Noam Brown回答说,自己不会说o1是一个系统,它是一个模型,但与之前的模型不同。这个回答,看起来有点语焉不详。

还有人采访道:o1表现出的最令人深刻的一点是什么?

Noam Brown回答说,自己给模型下指令让它自己回答这个问题。

在CoT中,模型开始自己给自己出难题测试自己,来确定自己的能力水平。一个模型会这么做,就足够让人印象深刻的了。

Hyung Won Chung则表示,模型对哲学问题的思考过程颇为引人入胜。比如,生命是什么?

活动结束后,大V「Tibor Blaho」专门写了一篇总结,对于团队的回答,做出了简明扼要的概括——

  • OpenAI o1的命名代表了AI能力的新水平;计数器重置为1
  • 「Preview」表示这是完整模型的早期版本
  • 「Mini」意味着这是o1模型的较小版本,针对速度进行了优化
  • 「o」代表OpenAI
  • o1不是一个「系统」;它是一个经过训练的模型,在返回最终答案之前生成长思维链
  • o1的图标象征性地表示为一个具有非凡能力的外星生命
  • o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户
  • o1-preview是o1模型的早期检查点,既不大也不小
  • o1-mini在STEM任务中表现更好,但世界知识有限
  • 相比o1-preview,o1-mini在某些任务中表现出色,尤其是与代码相关的
  • o1的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer)
  • o1-mini能够探索比o1-preview更多的思维链
  • o1模型即将支持更大的输入上下文
  • o1模型可以处理更长、更开放式的任务,与GPT-4o相比,减少了对输入分块的需求
  • o1可以在提供答案之前生成长思维链,这与之前的模型不同
  • 目前还没有办法在思维链推理过程中暂停以添加更多上下文,但正在为未来的模型探索这一功能
  • o1-preview目前还不能使用工具,但计划支持函数调用、代码解释器和浏览功能
  • 工具支持、结构化输出和系统提示将在未来更新中添加
  • 用户可能会在未来版本中获得对思考时间和token限制的控制权
  • 计划在API中启用流式处理并考虑推理进度
  • 多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能
  • o1会在推理过程中生成隐藏的思维链
  • 没有计划向API用户或ChatGPT透露思维链token
  • 思维链token被总结,但不保证忠实于实际推理过程
  • 提示词中的指令可以影响模型如何思考问题
  • 强化学习(RL)被用来改善o1中的思维链,仅依靠提示的GPT-4o在性能上无法匹敌
  • 思考阶段看起来较慢是因为它总结了思考过程,而答案的生成通常更快
  • o1-mini对ChatGPT Plus用户有每周50次提示的限制
  • 在ChatGPT中,所有提示词的计数是相同的
  • 随着时间的推移,将推出更多API访问层级和更高的使用限制
  • API中的提示缓存是一个很受欢迎的需求,但目前还没有时间表
  • o1模型的定价预计将遵循每1-2年降价的趋势
  • 一旦使用限制提高,将支持批量API定价
  • 微调在路线图上,但目前还没有时间表
  • o1的扩展受到研究和工程人才的限制
  • 推理计算的新扩展范式可能会为未来几代模型带来显著收益
  • 反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)
  • o1使用强化学习进行训练从而实现推理能力
  • o1在诗歌等横向任务中展现出了创造性思维和强大的性能
  • o1的哲学推理和泛化能力,如破译密码,令人印象深刻
  • 研究人员使用o1创建了一个GitHub机器人,可以ping正确的CODEOWNERS进行审核
  • 在内部测试中,o1通过自问难题来衡量其能力
  • 正在添加广泛的世界领域知识,并将在未来版本中改进
  • 计划在o1-mini的未来迭代中使用更新的数据(目前为2023年10月)
  • o1受益于提供边缘案例或推理风格的提示
  • 与早期模型相比,o1对提示中的推理线索更敏感
  • 在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的块会对推理产生负面影响
  • 由于还处在早期测试阶段,o1-preview的使用限制较低,但之后会有所增加
  • 正在积极改进延迟和推理时间
  • o1能够思考「生命是什么?」这类哲学问题
  • 研究人员发现o1在处理复杂任务和从有限指令中泛化的能力令人印象深刻
  • o1的创造性推理能力,如自问自答以衡量其能力,展示了其高水平的问题解决能力

参考资料:

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523

用户评论


可儿

这测试题真的太神奇了!我之前就觉得自己的思维方式和别人不一样,后来做完这个测试发现果然是天才啊!哈哈哈哈哈!现在感觉自己更有自信了。

    有11位网友表示赞同!


栀蓝

看了下标题就吓了一跳,我智商到底有多少? 不过好奇是真的好奇,门萨那可是世界最顶级的大脑俱乐部吧?估计我连入门都过不去呢…

    有5位网友表示赞同!


〆mè村姑

做梦都想考入门萨会员,听说里面的人真是太厉害了!据说这些测试题很考验逻辑思维和空间想象能力,我得多练练才行。

    有9位网友表示赞同!


打个酱油卖个萌

我觉得这门萨智商测试题太复杂了,有些问题我根本没解出来。会不会有一些知识点是需要提前学习的?感觉自己被打击了…

    有6位网友表示赞同!


雁過藍天

我也想试试看!我从小就喜欢解谜、玩游戏,觉得自己的思维方式比较独特,不知道能不能通过测试?🤔

    有20位网友表示赞同!


凉话刺骨

门萨智商测试题? 听说难度很高,而且不是随便都能考上的。 我还是蛮佩服那些能够通过的人啊!感觉他们的思维能力真的超强!🤯

    有18位网友表示赞同!


落花忆梦

我一直觉得智力测试结果并不一定能反映一个人的全部能力,毕竟每个人的优势领域都不一样吧? 你可以通过其他方式展现你的才华。

    有12位网友表示赞同!


漫长の人生

我以前做过一些智力测试,感觉自己也没那么低啊。是不是这个门萨的测试题标准比较高? 而且好像只能预约线下地点进行考试吧?

    有6位网友表示赞同!


蔚蓝的天空〃没有我的翅膀

对于一些需要快速解题的脑筋急转弯式的测试我可能还好一点,可是考验逻辑思考和抽象思维能力的题目我就感觉自己完全没有优势。 🤔

    有10位网友表示赞同!


暮染轻纱

门萨智商测试题是什么样的内容呢? 我很想知道哪些知识点需要注意,准备一番再做试题!

    有16位网友表示赞同!


像从了良

我有个朋友是门萨会员,他说考试过程非常严格,而且题型也和普通智力测试完全不同,需要认真思考和分析。 不过通过考试后能加入这个组织确实很棒!

    有16位网友表示赞同!


心脏偷懒

我觉得智商分数并不能完全代表一个人的价值。 真正重要的应该是善良、努力和创造力吧? 🤔 每个个体都有自己的闪光点! 💖

    有6位网友表示赞同!


未来未必来

门萨一直以来都是我最想参加的机构之一。 憧憬着能与一群聪明才智的人交流互动,一起探讨各种有趣的主题!希望有一天我能通过考试加入到这个组织之中!

    有7位网友表示赞同!


猫腻

我的认知能力总是比别人慢很多,面对复杂的逻辑思维问题我常常感到迷茫和困惑。 我不知道门萨的测试题对我来说是一个挑战还是一种打击…

    有12位网友表示赞同!


十言i

智商测试结果能指导我们的生活吗?我觉得更重要是了解自身优势和劣势,不断学习提升,成为更加优秀的人!

    有14位网友表示赞同!


莫失莫忘

如果要做这个门萨智商测试题,应该先好好回顾一下数学、逻辑、语文等基础知识。 毕竟门萨的标准非常严格啊! 🤔

    有5位网友表示赞同!


罪歌

我从小到大就喜欢做一些脑筋急转弯之类的题目,感觉自己思维能力还不错。 希望这次可以挑战一下自己,看看能不能通过门萨的测试题!

    有18位网友表示赞同!


哽咽

门萨智商测试题难度很高吧?我听朋友说过,里面有一些很奇特的问题,需要你跳出常规思维才能解开。 期待未来有机会挑战一下!

    有17位网友表示赞同!

原创文章,作者:chanong,如若转载,请注明出处:https://www.xinyuspace.com/16878.html

(0)
chanongchanong
上一篇 2025年6月4日
下一篇 2025年6月4日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注