InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与ChatGPT互动

名称: /OpenGVLab/InternGPT

地址: https://github.com/OpenGVLab/InternGPT

fork: 109    star: 1,758    开发语言: Python

项目简介: InternGPT (iGPT) is an open source demo platform where you can easily showcase your AI models. Now it supports DragGAN, ChatGPT, ImageBind, multimodal chat like GPT-4, SAM, interactive image editing, etc. Try it at igpt.opengvlab.com (支持 DragGAN、ChatGPT、ImageBind、SAM 的在线 Demo 系统)

InternGPT(简称 iGPT) / InternChat(简称 iChat) 是一种基于指向语言驱动的视觉交互系统,允许使用鼠标点击,拖拽和绘制的方式与 ChatGPT 进行互动。

internGPT 的名称是三个单词的组合,表达了三层含义,分别代表了 interaction(交互)、nonverbal(非语言)和 ChatGPT

现有的依赖纯语言交互系统不同,iGPT 通过整合指向指令,不仅显著提高了用户与聊天机器人之间的沟通效率,而且还提升了聊天机器人在视觉为中心任务中的准确性,特别是在复杂的视觉场景中。
除此之外, iGPT 中还采用辅助控制机制来增强 LLM 的控制能力,并对一个大型视觉-语言模型 Husky 进行微调,从而实现高质量的多模态对话(在 ChatGPT-3.5-turbo 评测中达到 93.89% GPT-4 质量)。

InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

InternGPT 上线了在线体验网站,在网站我们可以体验到iGPT 的所有的功能,比如音频生成图片,DragGAN,通过鼠标点击+文本的的方式进行 P 图,交互式的视觉问答等。

网站地址:https://igpt.opengvlab.com/

如果想要 DragGAN 对图片进行修改,可以按照以下的步骤:

  • 点击 New Image 按钮,加载一张新的图片;

  • 点击图片生成红蓝点对,其中蓝色代表起点,红色代表终点;

  • 注意蓝色点要和红色点的个数相同。然后点击 Drag It 按钮开始对图片处理;

  • 处理完成后,就会收到一张编辑后的图片和一个记录编辑过程的视频,并且可以将视频下载下来

InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

如果想要使用 ImageBind 根据音频生成图片的功能,需要先上传一个音频文件,然后发送相应的文本消息就能实现不同的图像 操作:

  • 单个音频生成新的图片,可以发送如下消息:"generate a real image from this audio";

  • 音频和文本生成新的图片,可以发送如下消息:"generate a real image from this audio and {your prompt}";

  • 音频和图片生成新的图片,需要再上传一个图片,然后发送如下消息:"generate a new image from above image and audio";

其他功能使用:

  • 在图片上传成功后, 我们也可以与 iGPT 讨论图片内容,比如:"what is it in the image?" or "what is the background color of image?".

    InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

    同样也可以进行一些交互式的操作,比如编辑图片或者生成新的图片,具体操作如下:

  • 点击图片上的任意位置,然后按下 Pick 按钮,就可以 预览分割区域。也可以按下 OCR 按钮,识别选中位置处的所有单词;

  • 如果要在图像中 删除掩码区域,您可以发送如下消息:“remove the masked region”

    InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

  • 要在图像中 替换掩码区域的物体为其他物体,您可以发送如下消息:“replace the masked region with {your prompt}”

  • 想 生成新图像,您可以发送如下消息:“generate a new image based on its segmentation describing {your prompt}”

  • 想通过 涂鸦创建新图像,您应该按下 Whiteboard 按钮并在白板上绘制。绘制完成后,您需要按下 保存 按钮并发送如下消息:“generate a new image based on this scribble describing {your prompt}”

    InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

除了可以对图片进行交互的编辑外,还可以对视频进行高光解说,并生成解说视频

InternGPT,一种基于指向语言驱动的视觉交互系统,仅需鼠标点击就能与 ChatGPT 互动

更多内容,请到 github 观看:https://github.com/OpenGVLab/InternGPT

END

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...