复旦大学推出AI图像生成评判模范:让机器画画也要汲取"高考"

发布日期:2025-12-10 09:14    点击次数:96

这项由复旦大学王怡斌、上海翻新督察院以及腾讯混元团队共同完成的督察发表于2025年10月,论文编号为arXiv:2510.18701v1。有兴趣深入了解的读者不错通过该编号查询无缺论文。

当下的AI绘图仍是能创作出令东说念主咋舌的艺术作品,从传神的东说念主物肖像到玄幻的科幻场景,这些AI艺术家的作品致使能在拍卖会上卖出高价。可是,就像评判学生的学习效能需要模范化考试相似,怎么公说念客不雅地评价这些AI画家的真实水平,一直是个让督察者头疼的问题。传统的评价措施就像用一把粗拙的尺子去测量精密零件,既不够精准,也无法全面反应AI的真实绘图智商。

恰是在这么的配景下,复旦大学的督察团队决心为AI绘图领域策画一套无缺的"高考体系"。他们开发了一个名为UniGenBench++的全新评价基准,就像为AI画家量身定制了一套包含语文、数学、物理、化学等多个科目的轮廓性考试。这套考试不仅涵盖了英文和中语两种说话,还成立了漫笔和长文两种题型难度,确保大要全场所考试AI的绘图贯通和创作智商。

这项督察的翻新之处在于,它初度建树了一个既全面又精细的AI绘图评价体系。督察团队全心策画了600说念"考题",这些题目涵盖了从基础的颜料搭配、格式识别,到复杂的心理抒发、逻辑推理等10个主要维度和27个细分考点。每说念题目都经过全心策画,就像高考命题组反复揣摸每一起试题相似严谨。

更令东说念主印象深刻的是,督察团队还开发了一个智能"阅卷系统"。这个系统基于先进的多模态大说话模子Gemini-2.5-Pro,大要像劝诫丰富的好意思术憨厚相似,不仅给出分数,还能详实解释为什么这么打分。为了让更多督察者大要使用这套评价体系,团队还教练了一个不错离线使用的评价模子,就像把专科的阅卷憨厚"请"到每个督察实验室里。

一、从新界说AI绘图的评价模范

遐想一下,淌若咱们要评判一个东说念主的绘图水平,咱们会从哪些角度来看呢?着手可能是基本功,比如线条是否流通、颜色是否谐和、比例是否准确。然后咱们会看创意抒发,比如是否大要传达心理、是否具有遐想力、是否适应主题要求。临了咱们还会研讨技法利用,比如光影处理、材质推崇、空间感等等。

AI绘图的评价亦然如斯,但挑战在于怎么将这些主不雅的艺术评判模范转念为客不雅可量化的方针。督察团队经过深入调研发现,现存的评价措施存在着昭着的局限性。有些措施就像只看考试总分而不存眷各科获利的分散,无法准确反应AI在不同智商维度上的推崇。有些方章程像只评语文而不考数学,评价范围过于短促。

为了处罚这些问题,督察团队决定从新驱动策画一套全新的评价体系。他们将AI绘图智商领会为10个主要维度,每个维度下又细分为多个具体的评价点。这就像把绘图智商拆解成一个个不错单独探员的手段模块,确保每一个进犯的智商都不会被遗漏。

这10个主要维度包括了作风掌控智商,也即是AI能否按照指定的艺术作风进行创作,比如油画作风、水彩作风或者卡通作风。寰宇知识贯通智商探员AI是否具备基本的学问,比如知说念企鹅生涯在南极、埃菲尔铁塔在巴黎等等。属性抒发智商测试AI能否准确推崇物体的颜料、材质、大小、格式等基本特征。

看成推崇智商评估AI是否大要形容种种动态场景,简约单的行走、奔走,到复杂的互动行径。空间布局智商探员AI对于二维和三维空间关系的贯通和推崇。关系贯通智商测试AI能否正确推崇物体之间的种种关系,比如包含关系、相似关系、对比关系等。

逻辑推聪敏商是一个尽头有挑战性的维度,它要求AI不仅能画出名义的风景,还要贯通深层的因果关系和逻辑揣摸。语法贯通智商探员AI对于文本形容中种种语法结构的贯通,比如含糊句、代词指代等。复合主见处聪敏商测试AI能否将多个主见微妙和会,创造出新颖真谛真谛的画面。临了,笔墨生成智商探员AI能否在画面中准确生成所需的笔墨内容。

每个主要维度底下还有更邃密的分类。比如在属性抒发智商下,督察团队分裂成立了数目、样式、材质、颜料、格式、大小等6个子维度。这么的细分确保了评价的全面性和精准性,就像体检时不仅要查验总体健康情状,还要逐个查验腹黑、肝脏、肾脏等各个器官的具体功能。

二、构建多元化的测试题库

策画好评价维度仅仅第一步,接下来的挑战是怎么策画出既有代表性又有挑战性的测试题目。督察团队选用了分层策画的计谋,就像全心操办一次全面的旅行,既要隐敝不同的稳定类型,又要确保每个景点都有其出奇的价值。

他们着手将测试场景按果然验应用需求分为5大主题类别。创意发散类题目饱读吹AI进行天马行空的遐想创作,比如"一个宇航员骑着由星尘组成的巨龙穿越土星环"这么充满玄幻颜色的场景。艺术创作类题目则要求AI掌抓种种艺术推崇时势,从传统的绘图、照相作风,到当代的平面策画、雕镂艺术。

插画策画类题目探员AI的实用性创作智商,包括告白宣传、居品先容、故事配图等贸易应用场景。影视故事类题目涵盖了电影质感的写实场景、科幻翌日场景以及动画作风场景,测试AI在不同艺术作风间的调度智商。策画应用类题目最为实用,包括UI界面策画、海报制作、品牌标记策画、先锋主见策画等真实的职责场景。

在这5大主题下,督察团队又细分出20个子主题,确保测试的全面性。同期,他们还策画了5个主要的主体类别,包括动物、物体、拟东说念主变装、场景,以及一个"其他"类别来涵盖机器东说念主等畸形主体。这么的分类确保了测试对象的种种性,幸免了AI只在特定类型的主体上推崇邃密的偏差。

为了测试AI对不同说话和文本长度的适合智商,每说念测试题都被策画成4个版块:英文漫笔本、英文长文本、中语漫笔本、中语长文本。这就像让学生既要作念聘请题又要作念申诉题,既要用母语答题又要用外语答题,全面考试AI的说话贯通和跨说话迁徙智商。

漫笔本版块经常唯有一两句话,简略明了地形容中枢要求。长文本版块则会添加更多的细节形容、配景信息和技艺要求,就像从"画一只猫"膨胀为"在平和的午后阳光下,一只毛色斑斓的橘猫慵懒地趴在古朴的木质窗台上,透过半开的百叶窗不错看到辽阔的街景,扫数这个词画面呈现出宁静善良的日常生涯气味"。

每说念题目还包含1到10个具体的测试点,每个测试点都有详实的评价模范。比如一起对于"宇航员骑龙"的题目,可能包含作风测试点(是否呈现油画质感)、看成测试点(是否正确推崇骑乘关系)、复合主见测试点(龙是否由星尘组成)、属性测试点(土星是否呈现正确颜料)等多个评价角度。

三、翻新的智能评价系统

有了完善的题库,接下来的挑战是怎么进行客不雅公说念的评价。传统的东说念主工评价措施不仅耗时耗力,而况容易受到评价者主不雅偏好的影响。督察团队翻新性地开发了一套基于东说念主工智能的自动评价系统,就像策画了一个永不疲顿、皆备公说念的智能阅卷憨厚。

这套系统的中枢是先进的多模态大说话模子Gemini-2.5-Pro。这个模子具备强壮的图像贯通智商和丰富的寰宇知识,大要像东说念主类巨匠相似分析图像内容,贯通复杂的视觉信息,并作念出准确的判断。

评价过程选用了点对点的精细化评估面貌。对于每一起测试题,系统会逐个查验每个测试点是否得到餍足。比如濒临一张"穿红色一稔的女孩在公园里喂鸽子"的图像,系统会分裂查验:图中是否有女孩(主体识别)、女孩是否穿红色一稔(颜料属性)、场景是否在公园(场景识别)、女孩是否在喂鸽子(看成识别)、女孩和鸽子之间是否有正确的互动关系(关系贯通)等等。

每个测试点的评价扫尾都是二元的,要么餍足要求得1分,要么不餍足得0分。这种浅昭着确的评分模范幸免了暗昧的中间状态,确保了评价扫尾的一致性和可叠加性。更进犯的是,系统不仅给出分数,还会提供详实的解释阐述,告诉用户为什么某个测试点通过或未通过。

为了考证这套智能评价系统的可靠性,督察团队将其扫尾与东说念主工评价扫尾进行了对比考证。扫尾夸耀,智能系统的评价扫尾与专科东说念主工评价高度一致,证明了系统的准确性和的确度。

四、离线评价模子的开发

天然基于Gemini-2.5-Pro的在线评价系统推崇出色,但它需要通过网络相连调用云霄劳动,这在某些情况下可能不够便利。为了让更多督察者大要便捷地使用这套评价体系,督察团队还开发了一个不错离线运行的评价模子。

这个离线模子就像把专科的阅卷憨厚"复制"到腹地,让督察者不错在我方的开荒上随时进行评价。模子的教练选用了知识蒸馏的措施,将Gemini-2.5-Pro的评价智商"传授"给一个更小、更高效的模子。

具体来说,督察团队着手用Gemini-2.5-Pro对简陋37.5万个图像-文本对进行了评价,生成了大都的教练样本。这些样本包含了图像、文本领导、测试点形容、评价扫尾息争释阐述等无缺信息。然后,他们用这些样本教练一个基于UnifiedReward-2.0-qwen-72b的腹地模子。

教练过程中,模子学习师法Gemini-2.5-Pro的评价逻辑和推理过程。就像学生通过大都锻练来掌抓憨厚的解题念念路相似,这个离线模子冉冉学会了怎么像专科评价师相似分析图像、识别问题、给出判断。

实验扫尾夸耀,这个离线模子在各个评价维度上都显耀超越了其他常用的评价模子。与现时鄙俚使用的Qwen2.5-VL-72b模子比较,新模子在扫数27个子维度上都获取了更高的准确率,平均普及幅度达到8%控制,在某些复杂维度上致使普及卓越15%。

五、全面的模子性能测试

有了无缺的评价体系,督察团队立行将其应用于现时主流的AI绘图模子测试。他们聘请了18个闭源贸易模子和30个开源模子进行全面评测,涵盖了从GPT-4o、DALL-E-3等有名居品,到最新的FLUX、Qwen-Image等开源决策。

测试扫尾揭示了现时AI绘图领域的一些真谛真谛风景。在闭源模子中,GPT-4o推崇最为平衡,在逻辑推理、语法贯通等高难度维度上推崇杰出。Imagen-4.0-Ultra在视觉推崇上极为出色,但在复杂推理方面略逊一筹。Seedream-4.0在笔墨生成方面推崇超卓,大要准确生成种种说话的笔墨内容。

开源模子方面,Qwen-Image成为了最大的亮点,在多个维度上不仅超越了其他开源模子,致使大要与顶级闭源模子视合并律。HiDream-I1-Full辞寰宇知识贯通方面推崇优秀,夸耀出邃密的学问推聪敏商。Lumina-DiMOO在关系贯通和语法处理方面有出奇上风。

测试还发现了一些精深性的缺陷。险些扫数模子,不论开源照旧闭源,都在逻辑推理维度上推崇欠安。这类任务要求模子不仅要画出名义风景,还要贯通深层的因果关系,比如"因为决心训诫机甲,是以屏幕夸耀激发笔墨"这么的逻辑链条。

语法贯通亦然一个精深的挑战,尽头是对于含糊句、代词指代、一致性要求等复杂语法结构的处理。好多模子在这些方面的推崇昭着低于其在基础视觉任务上的水平。

看成推崇是另一个真谛真谛的发现。开源模子在这个维度上精深推崇较弱,尽头是在推崇复杂的战役性互动和精细的手部看成方面。这可能与教练数据的质料和数目干系。

六、说话和文本长度的影响分析

这项督察的一个进犯发现是,AI模子在处理不同说话和不同长度文本时推崇出昭着互异。通过英文、中语以及漫笔本、长文本的对比测试,督察团队发现了一些令东说念主讶异的模式。

大多数模子在英文任务上的推崇都优于中语任务,这反应了现时AI教练数据中英文资源的上风地位。可是,一些特意针对中语优化的模子,如Qwen-Image,在中语任务上推崇出了昭着上风,致使超越了它们在英文任务上的推崇。

文本长度的影响愈加复杂。长文本经常包含更多的细节形容和更多的敛迹条目,这既为AI提供了更丰富的信息,也带来了更大的挑战。督察发现,大部分模子在长文本任务上的举座推崇存所下落,但在某些特定维度上反而有所普及。

比如在属性抒发维度,长文本提供的详实形容匡助模子更准确地贯通和推崇种种物体属性。但在逻辑推理维度,长文本中的复杂关系形容经常让模子更容易出错。这种"信息越多,作假越多"的风景提醒咱们,浮浅地增多文本形容的长度并不老是成心的。

尽头真谛真谛的是,一些模子在处理中语长文本时推崇出了出奇的上风。这可能与中语的说话特质干系,中语的信息密度较高,长文本大要提供更丰富的语义信息,匡助模子更好地贯通创作意图。

七、开源与闭源模子的竞争方法

此次全面的评测揭示了AI绘图领域开源与闭源模子之间的复杂竞争态势。总体而言,顶级闭源模子仍然在轮廓性能上保持当先,但开源模子正在快速松开差距,在某些特定领域致使罢了了超越。

闭源模子的上风主要体当今系统的牢固性和全面性上。像GPT-4o、Imagen-4.0这么的居品经过了大界限的贸易化测试和优化,在各个维度上都保持着相对平衡的高水平推崇。它们就像劝诫丰富的万能型艺术家,天然可能在某个特定技法上不是最顶尖的,但举座水平长久牢固可靠。

开源模子的发展轨迹则愈加种种化。一些开源技俩聘请了专精化道路,在特定领域作念到极致。比如某些模子在笔墨生成上推崇出色,某些模子辞寰宇知识贯通上有出奇之处。这种互异化竞争计谋让路源生态变得愈加丰富多彩。

最令东说念主印象深刻的是Qwen-Image等少数开源模子的全面崛起。这些模子不仅在传统的视觉推崇任务上达到了贸易级水准,在复杂的逻辑推理和说话清楚雇务上也展现出了鉴定实力。它们的告成证明了开源社区在AI绘图领域的雄壮后劲。

可是,测试也发现了开源模子的一些精深性问题。由于资源截至,多数开源模子在教练数据的界限和质料上仍然无法与顶级闭源模子比较。这种差距在一些需要大都先验知识的任务上推崇得尤为昭着,比如文化学问贯通、历史事件形容等。

八、技艺翻新与应用长进

UniGenBench++评价体系的推出不仅为现时的AI绘图模子提供了客不雅的评价模范,更进犯的是为翌日的技艺发展指明了场所。通过邃密的智商领会和精准的性能测量,这套体系匡助督察者透露地识别了现时技艺的签订和缺陷。

在技艺翻新方面,这套评价体系的一个进犯孝敬是建树了多模态贯通智商的全面测评框架。传统的评价措施经常只关注图像的视觉质料,而忽略了语义贯通、逻辑推理等高等次融会智商。UniGenBench++的评价维度策画为这些复杂智商的量化评估提供了可能。

评价体系中的逻辑推理测试尽头值得关注。这类测试要求AI不仅要贯通名义的视觉形容,还要掌抓深层的因果关系、时候序列、条目推理等复杂逻辑。面前扫数模子在这个维度上的精深低分标明,这是一个亟待冲破的技艺瓶颈,亦然翌日AI绘图发展的进犯场所。

多说话赈济智商的评测揭示了另一个进犯的技艺发展趋势。跟着AI应用的人人化,模子需要具备处理不同说话文化配景的智商。现时的测试扫尾夸耀,大多数模子仍然存在昭着的说话偏好,这为多说话AI绘图技艺的发展提倡了新的挑战。

在应用长进方面,这套评价体系的实用价值仍是驱动袒露。好多AI绘图应用的开发者仍是驱动使用这套模范来评估和纠正我方的居品。对于企业级用户来说,这套模范提供了聘请合适AI绘图器具的客不雅依据。

训诫领域亦然一个进犯的应用场所。艺术院校和策画机构不错使用这套模范来评估AI器具在素质中的适用性,制定合理的东说念主机谐和计谋。学生们也不错通过这套模范了解AI的智商界限,更好地将AI器具融入我方的创作过程。

贸易策画行业对这套评价体系推崇出了浓厚兴趣。告白公司、策画职责室、媒体机构等都需要快速、准确地评估不同AI器具的适用性。UniGenBench++提供的邃密分类评价匡助这些机构凭证具体需求聘请最合适的AI绘图器具。

九、翌日发展场所与挑战

天然UniGenBench++仍是建树了相配完善的评价框架,但督察团队也透露地意志到,这仅仅AI绘图评价模范化程度的一个进犯着手。跟着AI技艺的快速发展和应用场景的束缚膨胀,评价体系也需要不时演进和完善。

技艺层面的挑战主要荟萃在几个方面。着手是评价维度的进一步细化和膨胀。现时的10个主要维度和27个子维度仍是相配全面,但跟着AI智商的普及,可能需要增多更多更邃密的评价角度。比如心理抒发的风雅程度、文化内涵的深度贯通、创意主见的原创性等。

评价措施的客不雅性和准确性也需要不时纠正。天然基于大说话模子的自动评价仍是推崇出很高的准确性,但在一些主不雅性较强的艺术评价任务上,怎么平衡客不雅模范与艺术创作的主不雅脾气仍然是一个挑战。

多模态评价智商的膨胀是另一个进犯场所。现时的评价主要针对静态图像,但跟着AI视频生成、3D建模、交互式媒体等技艺的发展,评价体系需要膨胀到更多的媒体形态。

数据集的不时更新和膨胀也至关进犯。AI技艺发展日月牙异,新的模子、新的应用场景、新的挑战束缚涌现。评价数据集需要跟上这种发展节律,实时补充新的测试用例,确保评价的时效性和前瞻性。

跨文化和跨说话评价智商的增强是人人化配景下的势必要求。现时的双语测试(英文和中语)仅仅一个驱动,翌日需要膨胀到更多说话和文化配景,的确罢了人人化的AI绘图评价模范。

模范化和范例化亦然一个持久挑战。天然UniGenBench++为行业提供了一个进犯的参考模范,但要的确罢了行业模范的长入,还需要更多机构和组织的参与和认同。这需要在技艺模范、伦理范例、应用指南等多个层面酿成共鸣。

十、对AI绘图行业的深入影响

UniGenBench++的推出不仅是一个技艺器具的翻新,更是对扫数这个词AI绘图行业发展模式的进犯影响。这套模范化评价体系的建树,有望推进行业从轻佻式发展向精细化、专科化场所转念。

对于AI模子开发者来说,这套模范提供了明确的优化宗旨和纠正场所。开发者们不再需要凭债主不雅感受或有限的用户反馈来判断模子性能,而是不错通过客不雅的数据分析来识别模子的上风和不及。这种精准的会诊智商将大大提高模子纠正的效能和针对性。

这套评价体系还将促进AI绘图技艺的专科化单干。通过邃密的智商领会,开发者不错更好地贯通不同应用场景对AI智商的具体要求,从而开发出更有针对性的专科化模子。比如特意用于贸易策画的模子可能会尽头强化笔墨生成和品牌识别智商,而用于艺术创作的模子则可能更夺目创意抒发和作风掌控。

对于用户和企业来说,这套模范提供了聘请AI器具的科学依据。不同的用户对AI绘图有不同的需求,有些夺目创意性,有些强调准确性,有些需要特定的作风推崇。通过模范化的评价扫尾,用户不错凭证我方的具体需求聘请最合适的AI器具,幸免盲目跟风或作假聘请。

训诫和培训领域也将受益于这套模范。艺术院校不错将这套评价模范纳入AI艺术课程,匡助学生客不雅贯通AI的智商和局限性。策画师培训机构不错基于这套模范策画更有针对性的东说念主机谐和课程,培养新期间的复合型策画东说念主才。

这套模范还将推进AI绘图技艺的透明化和可解释性。通过详实的评价酬报息争释阐述,用户不错更好地贯通AI的职责旨趣和决策过程。这种透明度对于建树用户信任、促进技艺普及具有进犯真谛。

从永久来看,UniGenBench++有望成为AI绘图领域的"行业模范",为扫数这个词行业的健康发展提供进犯支持。就像其他纯熟行业都有我方的质料模范和认证体系相似,AI绘图行业也需要这么的专科模范来范例市集、辅导发展、保护用户利益。

说到底,UniGenBench++的的确价值不在于它给出了几许具体的评分数据,而在于它为扫数这个词AI绘图行业建树了一套科学、客不雅、全面的评价念念维体系。这套体系将匡助扫数参与者——不论是技艺开发者、居品策画师,照旧最终用户——更好地贯通AI绘图技艺的本色,更合理地利用这项技艺的后劲,最终推进扫数这个词行业向着愈加纯熟、专科、有序的场所发展。跟着AI技艺的不时跨越和应用的束缚深化,这么的模范化评价体系将变得越来越进犯,成为行业发展不行或缺的基础要领。

Q&A

Q1:UniGenBench++评价体系包含哪些主要测试维度?

A:UniGenBench++包含10个主要评价维度:作风掌控、寰宇知识贯通、属性抒发、看成推崇、空间布局、关系贯通、逻辑推理、语法贯通、复合主见处理和笔墨生成智商。每个维度下还细分为多个具体测试点,统共涵盖27个子维度,确保对AI绘图智商的全面评估。

Q2:为什么需要开发特意的AI绘图评价模范?

A:现存的AI绘图评价措施存在昭着局限性,就像用粗拙的尺子测量精密零件相似不够精准。传统措施要么评价范围过于短促,要么无法反应AI在不同智商维度上的具体推崇。UniGenBench++通过建树模范化、客不雅化的评价体系,为AI模子开发者提供明确的纠正场所,为用户聘请合适的AI器具提供科学依据。

Q3:这套评价体系对泛泛用户有什么实验真谛?

A:对泛泛用户来说,这套模范就像商品的质料认证标签,匡助他们凭证具体需求聘请最合适的AI绘图器具。比如需要制作贸易海报的用户不错聘请在笔墨生成和布局策画方面推崇杰出的模子,而进行艺术创作的用户则不错聘请在创意抒发和作风掌控方面更强的模子,幸免盲目聘请。