人类科技化 MIT团队开发AI文生图Agent，模拟人类素描，还可人机交互创作

用户投稿 2025年09月13日 14:44:03 108 0

MIT团队开发AI文生图Agent，模拟人类素描，还可人机交互创作

当你试图交流或理解某些想法时，语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。

但若人工智能能协助我们探索这种可视化表达呢？

当前，多数 AI 系统虽擅长创作写实油画或卡通插画，却难以把握素描的精髓：那种逐笔勾勒、反复迭代的过程，正是人类借以头脑风暴并修正创意表达的关键。

近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）与斯坦福大学联合开发的新型绘图系统“SketchAgent ”改变了这一现状。该系统采用多模态语言模型，可在数秒内将自然语言指令转化为草图。 无论是独立创作还是人机协作，它都能完成绘制，既可以配合人类共同作画，也能根据分段文字描述逐步构建草图 。

该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出，这一系统开创了人机交互的更自然方式。 “人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意，我们的工具旨在模拟这一过程，让多模态语言模型能更有效地辅助人类实现视觉化表达。”

虽然像 DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画，但它们缺少素描的一个关键要素：自发的、富有创意的过程，在这个过程中，每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触，看起来更自然流畅，就像人类的素描一样。

先前的研究依赖人类绘制数据集进行模型训练，其规模与多样性往往受限。SketchAgent 则另辟蹊径，直接调用预训练语言模型——这些模型虽掌握海量概念，却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后，SketchAgent 开始绘制它从未明确训练过的各种概念。

SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据，而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程：每道笔触都标注对应元素，使模型能够举一反三理解新概念。

作为一种冻结参数的多模态大语言模型，SketchAgent 接收三类输入：包含素描语言规范的系统提示；带有具体任务指令的用户提示（如“画一条鲨鱼”）；空白绘图画布。根据任务要求，该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景：配合更新后的提示重新输入模型，用于执行新增任务或修改草图；供人类用户调取以实现协作绘图。

Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作，还是在独立创作。他们在协作模式下测试了该系统：人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后，团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后，整幅帆船草图便难以辨认。

也就是说，通过研究人员设计的基于 Web 的协作式草图绘制环境，用户可以和 SketchAgent 轮流在共享画布上绘制，根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念：单人模式（各自独立绘制）和协作模式（用户和 SketchAgent 协作绘制，每次添加一笔，直到双方都对最终效果满意为止）。绿色表示用户绘制的笔触，粉色表示 SketchAgent 绘制的笔触。

用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图：机器人、蝴蝶、DNA双螺旋、流程图，甚至悉尼歌剧院等抽象图案 。未来，该工具或可发展为互动艺术游戏，既能辅助教师和研究者图解复杂概念，也能为用户提供快速绘画教学。

此外，用户还可以使用 SketchAgent 将草图变为动图。

在另一个实验中，研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现，Claude 3.5 Sonnet 生成的矢量图形（可转换为高清图像的文本文件）最具人类特质，表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。

她补充道，SketchAgent 可能成为超越文本交互的新型人机协作界面：“随着模型理解草图等多元模态的能力提升，用户将获得更直觉化、类人的表达方式，这能显著丰富交互体验，提升 AI 的易用性与适应性。”

尽管 SketchAgent 展现出巨大的潜力，目前仍无法完成专业素描。它能用简笔画呈现基础概念，但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。 协作过程中，模型偶现理解偏差——例如画出双头兔。Vinker 解释，这可能源于其“思维链”推理机制：当模型将绘图任务分解为多个步骤时，可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。

此外，该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面，简化与多模态语言模型的协作绘图流程。但该工具已证明：通过人机逐步协作，AI 有望以人类思维方式绘制多元概念，最终实现更契合设计意图的成果。

原文链接：

1.https://yael-vinker.github.io/sketch-agent/

2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602

MIT团队开发AI文生图Agent，模拟人类素描，还可人机交互创作

当你试图交流或理解某些想法时，语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。

但若人工智能能协助我们探索这种可视化表达呢？

近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）与斯坦福大学联合开发的新型绘图系统“SketchAgent”改变了这一现状。该系统采用多模态语言模型，可在数秒内将自然语言指令转化为草图。无论是独立创作还是人机协作，它都能完成绘制，既可以配合人类共同作画，也能根据分段文字描述逐步构建草图。

该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出，这一系统开创了人机交互的更自然方式。“人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意，我们的工具旨在模拟这一过程，让多模态语言模型能更有效地辅助人类实现视觉化表达。”

用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图：机器人、蝴蝶、DNA双螺旋、流程图，甚至悉尼歌剧院等抽象图案。未来，该工具或可发展为互动艺术游戏，既能辅助教师和研究者图解复杂概念，也能为用户提供快速绘画教学。

此外，用户还可以使用 SketchAgent 将草图变为动图。

尽管 SketchAgent 展现出巨大的潜力，目前仍无法完成专业素描。它能用简笔画呈现基础概念，但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。协作过程中，模型偶现理解偏差——例如画出双头兔。Vinker 解释，这可能源于其“思维链”推理机制：当模型将绘图任务分解为多个步骤时，可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。

原文链接：

1.https://yael-vinker.github.io/sketch-agent/

2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602