InternGPT，一种基于指向语言驱动的视觉交互系统，仅需鼠标点击就能与ChatGPT互动-武穆逸仙 In July 2025

名称: /OpenGVLab/InternGPT

地址: https://github.com/OpenGVLab/InternGPT

fork: 109 star: 1,758 开发语言: Python

项目简介: InternGPT (iGPT) is an open source demo platform where you can easily showcase your AI models. Now it supports DragGAN, ChatGPT, ImageBind, multimodal chat like GPT-4, SAM, interactive image editing, etc. Try it at igpt.opengvlab.com (支持 DragGAN、ChatGPT、ImageBind、SAM 的在线 Demo 系统)

InternGPT（简称 iGPT） / InternChat（简称 iChat）是一种基于指向语言驱动的视觉交互系统，允许使用鼠标点击，拖拽和绘制的方式与 ChatGPT 进行互动。

internGPT 的名称是三个单词的组合，表达了三层含义，分别代表了 interaction（交互）、nonverbal（非语言）和 ChatGPT。

与现有的依赖纯语言交互系统不同，iGPT 通过整合指向指令，不仅显著提高了用户与聊天机器人之间的沟通效率，而且还提升了聊天机器人在视觉为中心任务中的准确性，特别是在复杂的视觉场景中。

除此之外， iGPT 中还采用辅助控制机制来增强 LLM 的控制能力，并对一个大型视觉-语言模型 Husky 进行微调，从而实现高质量的多模态对话（在 ChatGPT-3.5-turbo 评测中达到 93.89% GPT-4 质量）。

InternGPT，一种基于指向语言驱动的视觉交互系统，仅需鼠标点击就能与 ChatGPT 互动

InternGPT 上线了在线体验网站，在网站我们可以体验到iGPT 的所有的功能，比如音频生成图片，DragGAN，通过鼠标点击+文本的的方式进行 P 图，交互式的视觉问答等。

网站地址：https://igpt.opengvlab.com/

如果想要 DragGAN 对图片进行修改，可以按照以下的步骤：

点击 New Image 按钮，加载一张新的图片；
点击图片生成红蓝点对，其中蓝色代表起点，红色代表终点；
注意蓝色点要和红色点的个数相同。然后点击 Drag It 按钮开始对图片处理；
处理完成后，就会收到一张编辑后的图片和一个记录编辑过程的视频，并且可以将视频下载下来

InternGPT，一种基于指向语言驱动的视觉交互系统，仅需鼠标点击就能与 ChatGPT 互动

如果想要使用 ImageBind 根据音频生成图片的功能，需要先上传一个音频文件，然后发送相应的文本消息就能实现不同的图像操作：

从单个音频生成新的图片，可以发送如下消息："generate a real image from this audio";
从音频和文本生成新的图片，可以发送如下消息："generate a real image from this audio and {your prompt}";
从音频和图片生成新的图片，需要再上传一个图片，然后发送如下消息："generate a new image from above image and audio";

其他功能使用：

在图片上传成功后, 我们也可以与 iGPT 讨论图片内容，比如："what is it in the image?" or "what is the background color of image?".
同样也可以进行一些交互式的操作，比如编辑图片或者生成新的图片，具体操作如下：
点击图片上的任意位置，然后按下 Pick 按钮，就可以预览分割区域。也可以按下 OCR 按钮，识别选中位置处的所有单词；
如果要在图像中删除掩码区域，您可以发送如下消息：“remove the masked region”；
要在图像中替换掩码区域的物体为其他物体，您可以发送如下消息：“replace the masked region with {your prompt}”；
想生成新图像，您可以发送如下消息：“generate a new image based on its segmentation describing {your prompt}”；
想通过涂鸦创建新图像，您应该按下 Whiteboard 按钮并在白板上绘制。绘制完成后，您需要按下 保存 按钮并发送如下消息：“generate a new image based on this scribble describing {your prompt}”。