大家好,今天给各位分享全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差 的一些知识,其中也会对进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!
当学习新知识时,人类总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知道路。
AI是否还建立了“首先记住单词,然后了解原理,最后练习应用程序”的知识结构?
只需检查一下!
东南大学联合提出了Kris-Bench(图像编辑系统基准的知识推理),由Max Planck信息学院,上海Jiaotong大学,Jieyuexingchen,加利福尼亚大学,伯克利分校和加利福尼亚大学的研究小组。
第一个从知识类型的角度从系统地进行系统地提炼图像编辑模型的推理能力。
Kris-Bench借鉴了Bloom的认知分类和教育心理学中的等级教学概念,使AI逐渐在三个主要水平的事实知识,概念知识和程序知识的主要水平上接受更深入,更复杂的编辑挑战。
基于认知分层的三大知识范畴
事实知识:可以直接感知的信息,例如颜色,数量,空间和时间;概念知识:涉及物理,化学和生物学等学科的常识知识,需要进一步了解世界;程序知识:多步操作和规则推理,检查模型的任务分解和推理能力。 Kris-Bench已完善了7个主要的推理维度和22个典型的编辑任务,从“对象计数”变化到“化学反应预测”,“多元素合成”等,涵盖了从主要到高级的全频谱难度。
总样本量:1,267对图像- 说明,专家团队全部抛光并反复校对;
四维度自动化评估指标
在多模式大型模型和手动校准的帮助下,Kris Bench率先率先从四个维度开始编辑输出的评分:
视觉一致性:非目标区域是否保持原始;视觉质量:生成图像的自然性和失真;说明以下:执行指令的执行的完整性和准确性;知识的合理性:结果是否符合现实世界中的常识和法律。深入的知识任务还伴随着手动知识技巧,以帮助判断该模型是否真正“理解”其背后的原理。
10款模型全面测试
Kris-Bench评估3个封闭源(GPT-Image-1,Gemini 2.0 Flash,doubao)和7个开源源(Omnigen,EMU2,Bagel,Bagel,Step1X-Edit,AnyEdit,AnyEdit,AnyEdit,MagicBrush,MagicBrush,ConstressPix2Pix)。
封闭源旗舰GPT-Image-1遥遥领先,开源的黑马Bagel-Ink通过引入推理过程来提高其知识理性的表现,但它仍然与封闭源模型有一定距离。例如,即使是最简单的事实知识,许多模型在数量变化和大小变化方面仍然表现较差。所有模型通常在“程序推理”,“自然科学”和“多步合成”任务中失去积分,显示出深层推理能力的严重缺陷。
借助Kris-Bench,团队正在推动图像编辑模型,从而从简单的“像素处理”转向具有类似人类认知能力的“视觉明智的人”。
将来,团队预计编辑将不再像“改变颜色”和“移动位置”那样简单,而是会在内部植入物理,化学,社会常识和因果推理,以真正让AI真正理解“为什么会发生”和“接下来会发生什么”。
有兴趣的朋友可以单击下面的链接以获取更多详细信息
项目地址:https://yongliang-wu.github.io/kris_bench_project_page/paper地址:3https://arxiv.org/abs/2505.16707代码地址:3https://github.com/mercurystraw/kris_bench/kris_bench_bench
– 超过-
Qbitai
原创文章,作者:匿名,如若转载,请注明出处:https://www.xinyuspace.com/21135.html
用户评论
江山策
这个结论很有道理,我之前也试过一些开源的图像编辑模型,发现它们在处理实际场景的照片时,往往难以达到预期效果。感觉这些模型还是比较依赖于训练数据,对一些复杂的操作和逻辑判断能力不足。
有18位网友表示赞同!
西瓜贩子
这篇评测蛮客观,确实很多图像编辑模型在推理能力上还有很大的提升空间,尤其是在程序性推理方面更是如此。希望能看到更多研究者关注这个问题,并提出更加有效的解决方案!
有6位网友表示赞同!
我怕疼别碰我伤口
完全同意这篇论文的观点!我最近也发现一个图像生成模型,它能生成非常逼真的照片,但如果遇到一些逻辑错误的任务,就完全无法完成。感觉这些模型目前还只是模仿训练数据的结果,真正理解图像背后的含义还有很长的路要走。
有19位网友表示赞同!
独角戏°
我觉得这个“程序性推理”的定义有点过于笼统,图像编辑本质上还是需要对光影、结构等方面的理解,而不是单纯的逻辑运算。或许我们可以从更具体的任务出发,来量化模型的推理能力?
有16位网友表示赞同!
空谷幽兰
这篇评测很有价值!希望以后的研究能更加深入地探讨这个问题,并提出一些可行的解决方案,让图像编辑模型能够更好地理解和处理复杂的图像信息。
有18位网友表示赞同!
墨城烟柳
我感觉现在很多研究者都过于关注模型生成的内容质量,却忽略了模型的推理能力。这就像一个画家只顾着画出美丽的画面,而对光影、透视等基本的绘画技巧并没有深入学习,最终作品看起来虽然漂亮,但缺乏深度和结构感。
有6位网友表示赞同!
君临臣
我觉得这种评测方式还是比较有效的,可以帮助我们更好地了解当前图像编辑模型的发展现状,以及未来需要改进的方向。希望可以看到更多类似的评测报告,推动该领域的研究进步。
有7位网友表示赞同!
暮光薄凉
这篇评测让我对现有的图像编辑模型有了更深的认识,确实它们在推理能力方面还存在一些局限性。期待看到未来研究者能够开发出更加智能、可靠的模型!
有17位网友表示赞同!
月下独酌
完全同意这篇论文的观点!感觉很多图像编辑模型只是通过简单的规则和映射来完成图像编辑任务,缺乏真正的“理解”能力。我希望未来能够出现更先进的模型,能够像人类一样去思考和分析图像信息才能实现真正的高级图像编辑功能。
有7位网友表示赞同!
鹿先森,教魔方
我觉得这个“程序性推理”的概念有点抽象,或许可以用一些具体的例子来说明一下吗?例如,如果给模型一个包含错误信息的图像任务,它怎样才能进行有效的推理并给出正确的输出?
有6位网友表示赞同!
怅惘
这篇评测让我对图像编辑模型的局限性有了更深的认识, 虽然目前的技术已经令人印象深刻,但仍然不能完全替代人类的创造力和判断能力。期待未来能够出现更加智能和强大的人机合作模式!
有13位网友表示赞同!
颜洛殇
总而言之,这篇评测还是比较中肯和客观,没有夸张地吹捧某一种模型,而是全面分析了图像编辑模型在推理能力方面的不足。 同时也提到了未来的发展方向, 希望能看到更多的研究者在这个领域继续探索和创新!
有13位网友表示赞同!
暖瞳
我觉得这篇论文的观点很有道理,很多时候我们对AI模型的要求过于高,期望它能够像人类一样进行复杂推理。但实际上,计算机技术本身还是有限的,需要从数据、算法等方面着力突破才能实现更高级的推理能力。
有6位网友表示赞同!
冷青裳
对于图像编辑模型来说,程序性推理能力确实非常重要, 但我认为它并不是唯一的指标。 每个图像编辑任务都有不同的需求, 模型应该根据具体情况进行优化和设计, 不能简单地以“程序性推理”作为唯一标准来评价模型的性能。
有10位网友表示赞同!
愁杀
我对图像编辑模型的发展一直比较关注, 但是这篇评测让我有些失望。现在很多研究者都集中在模型的生成能力上,却忽略了推理能力的重要性。我希望未来能够看到更多针对推理能力方面的研究和成果!
有20位网友表示赞同!
゛指尖的阳光丶
我觉得这篇评测有点过于悲观,虽然目前图像编辑模型在程序性推理方面确实存在不足, 但这并不代表未来的发展没有希望。随着人工智能技术的不断进步,相信我们终将会突破现有的局限,开发出更加智能、强大的图像编辑模型!
有10位网友表示赞同!
北染陌人
这篇评测让我看到了未来图像编辑领域的挑战和机遇。我们需要加强对推理能力的研究,并探索更有效的方法来提高模型的理解和分析能力。 这将不仅推动图像编辑技术的进步, 还会为其他AI领域的发展提供借鉴和启发!
有17位网友表示赞同!