MIT团队开发AI文生图Agent,模拟人类素描,还可人机交互创作

当你试图交流或理解某些想法时,语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。
但若人工智能能协助我们探索这种可视化表达呢?
当前,多数 AI 系统虽擅长创作写实油画或卡通插画,却难以把握素描的精髓:那种逐笔勾勒、反复迭代的过程,正是人类借以头脑风暴并修正创意表达的关键。
近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学联合开发的新型绘图系统“SketchAgent ”改变了这一现状。该系统采用多模态语言模型,可在数秒内将自然语言指令转化为草图。 无论是独立创作还是人机协作,它都能完成绘制,既可以配合人类共同作画,也能根据分段文字描述逐步构建草图 。
该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出,这一系统开创了人机交互的更自然方式。 “人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意,我们的工具旨在模拟这一过程,让多模态语言模型能更有效地辅助人类实现视觉化表达。”
虽然像 DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画,但它们缺少素描的一个关键要素:自发的、富有创意的过程,在这个过程中,每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触,看起来更自然流畅,就像人类的素描一样。
先前的研究依赖人类绘制数据集进行模型训练,其规模与多样性往往受限。SketchAgent 则另辟蹊径,直接调用预训练语言模型——这些模型虽掌握海量概念,却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后,SketchAgent 开始绘制它从未明确训练过的各种概念。
SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据,而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程:每道笔触都标注对应元素,使模型能够举一反三理解新概念。
作为一种冻结参数的多模态大语言模型,SketchAgent 接收三类输入:包含素描语言规范的系统提示;带有具体任务指令的用户提示(如“画一条鲨鱼”);空白绘图画布。根据任务要求,该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景:配合更新后的提示重新输入模型,用于执行新增任务或修改草图;供人类用户调取以实现协作绘图。

Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作,还是在独立创作。他们在协作模式下测试了该系统:人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后,团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后,整幅帆船草图便难以辨认。
也就是说,通过研究人员设计的基于 Web 的协作式草图绘制环境,用户可以和 SketchAgent 轮流在共享画布上绘制,根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念:单人模式(各自独立绘制)和协作模式(用户和 SketchAgent 协作绘制,每次添加一笔,直到双方都对最终效果满意为止)。绿色表示用户绘制的笔触,粉色表示 SketchAgent 绘制的笔触 。
用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图:机器人、蝴蝶、DNA双螺旋、流程图,甚至悉尼歌剧院等抽象图案 。未来,该工具或可发展为互动艺术游戏,既能辅助教师和研究者图解复杂概念,也能为用户提供快速绘画教学。
此外,用户还可以使用 SketchAgent 将草图变为动图。
在另一个实验中,研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现,Claude 3.5 Sonnet 生成的矢量图形(可转换为高清图像的文本文件)最具人类特质,表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。
她补充道,SketchAgent 可能成为超越文本交互的新型人机协作界面:“随着模型理解草图等多元模态的能力提升,用户将获得更直觉化、类人的表达方式,这能显著丰富交互体验,提升 AI 的易用性与适应性。”
尽管 SketchAgent 展现出巨大的潜力,目前仍无法完成专业素描。它能用简笔画呈现基础概念,但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。 协作过程中,模型偶现理解偏差——例如画出双头兔。Vinker 解释,这可能源于其“思维链”推理机制:当模型将绘图任务分解为多个步骤时,可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。
此外,该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面,简化与多模态语言模型的协作绘图流程。但该工具已证明:通过人机逐步协作,AI 有望以人类思维方式绘制多元概念,最终实现更契合设计意图的成果。
原文链接:
1.https://yael-vinker.github.io/sketch-agent/
2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602
MIT团队开发AI文生图Agent,模拟人类素描,还可人机交互创作

当你试图交流或理解某些想法时,语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。
但若人工智能能协助我们探索这种可视化表达呢?
当前,多数 AI 系统虽擅长创作写实油画或卡通插画,却难以把握素描的精髓:那种逐笔勾勒、反复迭代的过程,正是人类借以头脑风暴并修正创意表达的关键。
近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学联合开发的新型绘图系统“SketchAgent”改变了这一现状。该系统采用多模态语言模型,可在数秒内将自然语言指令转化为草图。无论是独立创作还是人机协作,它都能完成绘制,既可以配合人类共同作画,也能根据分段文字描述逐步构建草图。
该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出,这一系统开创了人机交互的更自然方式。“人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意,我们的工具旨在模拟这一过程,让多模态语言模型能更有效地辅助人类实现视觉化表达。”
虽然像 DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画,但它们缺少素描的一个关键要素:自发的、富有创意的过程,在这个过程中,每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触,看起来更自然流畅,就像人类的素描一样。
先前的研究依赖人类绘制数据集进行模型训练,其规模与多样性往往受限。SketchAgent 则另辟蹊径,直接调用预训练语言模型——这些模型虽掌握海量概念,却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后,SketchAgent 开始绘制它从未明确训练过的各种概念。
SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据,而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程:每道笔触都标注对应元素,使模型能够举一反三理解新概念。
作为一种冻结参数的多模态大语言模型,SketchAgent 接收三类输入:包含素描语言规范的系统提示;带有具体任务指令的用户提示(如“画一条鲨鱼”);空白绘图画布。根据任务要求,该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景:配合更新后的提示重新输入模型,用于执行新增任务或修改草图;供人类用户调取以实现协作绘图。

Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作,还是在独立创作。他们在协作模式下测试了该系统:人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后,团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后,整幅帆船草图便难以辨认。
也就是说,通过研究人员设计的基于 Web 的协作式草图绘制环境,用户可以和 SketchAgent 轮流在共享画布上绘制,根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念:单人模式(各自独立绘制)和协作模式(用户和 SketchAgent 协作绘制,每次添加一笔,直到双方都对最终效果满意为止)。绿色表示用户绘制的笔触,粉色表示 SketchAgent 绘制的笔触 。
用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图:机器人、蝴蝶、DNA双螺旋、流程图,甚至悉尼歌剧院等抽象图案。未来,该工具或可发展为互动艺术游戏,既能辅助教师和研究者图解复杂概念,也能为用户提供快速绘画教学。
此外,用户还可以使用 SketchAgent 将草图变为动图。
在另一个实验中,研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现,Claude 3.5 Sonnet 生成的矢量图形(可转换为高清图像的文本文件)最具人类特质,表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。
她补充道,SketchAgent 可能成为超越文本交互的新型人机协作界面:“随着模型理解草图等多元模态的能力提升,用户将获得更直觉化、类人的表达方式,这能显著丰富交互体验,提升 AI 的易用性与适应性。”
尽管 SketchAgent 展现出巨大的潜力,目前仍无法完成专业素描。它能用简笔画呈现基础概念,但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。协作过程中,模型偶现理解偏差——例如画出双头兔。Vinker 解释,这可能源于其“思维链”推理机制:当模型将绘图任务分解为多个步骤时,可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。
此外,该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面,简化与多模态语言模型的协作绘图流程。但该工具已证明:通过人机逐步协作,AI 有望以人类思维方式绘制多元概念,最终实现更契合设计意图的成果。
原文链接:
1.https://yael-vinker.github.io/sketch-agent/
2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602

相关问答
人总追求自在生活却又活得一地鸡毛,社会科技化对人是好还是坏?
谢邀!想将网友[ERBInmsl]的问题顺序颠倒一下,先说结果,后及个人。笔者认为,“社会科技化对人(们)”只有好的作用,没有“坏”的影响。要说坏的影响,我...想...
人类的科技发展中,对自然带来的灾害污染,人类日后该如何生存?
正所谓物极必反,现在人类已经属于地球已知物种的最顶端。(不含那些未知或者未公布的秘密)。按照现在的发展来看,人类总人数趋于饱和之后对大自然会产生超负荷...
【现代科技给人们带来了什么好处】作业帮
[最佳回答]■正方:当人类为科技高奏凯歌的同时,请不要忘记,科技也同样可以给邪恶的心灵以魔鬼般的力量人类将毁于科技,还基于现代科技对人类发展的全方位扭曲...
2000年后人类的科技能达到什么地步?医疗会变成什么样?
肯定是超前的发达,空间领域也被完全的利用,因为地面已经不能满足科技的发展,那时候公交地铁已成为股东,人类已经将外星球发展成人类完全适应的环境,不过只有...
五百年后,人类的科技能发展到什么程度?
科技发展是不定向的。也就是说难以预测未来科技发展趋势。说这话,你可能会不满,怎么可能难以预测?举个例子吧,蒸汽机发明时,引发第一次工业革命时,那时候...
科技是什么意思_作业帮
[最佳回答]科技的英文:scienceandtechnology科技是科学技术的简称.科学是人类在长期认识和改造世界的历史过程中所积累起来的认识世界事物的知识体系.技术...
科技对人类的影响?
马克思认为,技术是现实生产力,是改造世界的物质力量。科技的状况决定人们利用自然的能力,科技进步促进人类的文化进步,推动历史的前进。在人类的发展历程中,科...
三体星人科技在三体世界观中很高吗?
三体人通过与ETO的接触得知了地球的详细情况,包括宇航技术等等情况,三体人认为自己的科技是很高的,可以说甩了地球几百条街。但是没有高到三体人忘乎所以的地...
为什么随着科技发展,人类的生活越来越方便了?
在现代科技水平不段发展的今天,随着交通的便利,网络信息技术的完善。农业和工业的发展越来越好,各种机器的智能化,也使得人们的生活发生了改变,越来越方便,...在...
未来医疗科技发展,人类可以永生,世界会变成什么样子?
这个技术成立,也不可能是全部人类都可以使用这个技术。因为它不是我们人类天生的权利,使用权利和费用都会让它势必演变成是一小部分高级别的掌握技术的人(通常...