谷歌的新AI工具使用图像提示而不是文本

发布日期：2025-03-07 00:44 点击次数：93

谷歌最新的人工智能工具“Whisk”允许人们上传照片以获得人工智能生成的组合图像，即使用户不需要输入任何文本来解释他们想要什么。

用户可以在Whisk将所有内容组合成一张图像之前输入描绘主题、设置和风格的图像。Whisk是一种快速灵感的“创意工具”，而不是“传统的图像编辑器”。本质上，Whisk旨在成为一种有趣的人工智能功能，而不是一种应该是精致的专业工作。

谷歌和OpenAI等大型科技公司正在竞相发布能够展示这种时髦新技术用途的消费品，尽管反对者警告说，人工智能发展缺乏护栏会对人类构成危险。

自OpenAI于2021年首次推出文本到图像创建工具Dall-E以来，人工智能生成艺术品的概念已经淹没了社交媒体，成为消费品的焦点。谷歌的Whisk是一个图像到图像生成器，建立在文本到图像生成器的流行概念之上。

使用Whisk的人可以通过编辑他们的输入并混合类别来“重新混合”最终图像，从而产生不同的图像，如毛绒玩具、珐琅针或贴纸。如果用户想要指导某些细节，可以添加文本，但不需要创建图像。

谷歌实验室产品管理总监Thomas Iljic在一份声明中表示：“Whisk旨在让用户以新的创意方式重新混合主题、场景和风格，提供快速的视觉探索，而不是像素完美的编辑。”。

谷歌的Whisk建立在谷歌于2014年收购的人工智能实验室DeepMind开发的生成式人工智能之上。

Whisk的工作原理是使用谷歌的核心人工智能产品Gemini，该产品于2023年12月首次亮相，并将其与DeepMind于12月发布的最新文本到图像生成器Imagen 3配对。

当用户上传他们的图像时，Gemini会生成一个标题，并将其输入Imagen 3。该过程捕捉了主题的“本质”，而不是精确的复制品，这允许重新混合最终图像，但也意味着最终产品可能会偏离提示。

例如，谷歌在一篇博客文章中表示，生成的图像可能与提示图像的高度、发型或肤色不同。当谷歌在2月份首次推出Gemini的文本到图像创建器时，该公司最初面临强烈反对，因为该工具产生了历史上不准确的图像。

该公司表示，Whisk最初是作为谷歌实验室的一个网站为美国用户提供的，目前正处于早期开发阶段。