Paper | Visual ChatGPT Talking, Drawing and Editing with Visual Foundation Models | arXiv2023

Info

Abstract

存在的问题:

  • 大型语言模型如ChatGPT利用单一语言模态训练,因此处理视觉信息的能力非常有限。

  • 相比较而言,视觉基础模型(VFM,Visual Foundation Models)在计算机视觉方面潜力巨大,因而能够理解和生成复杂的图像(如ViT、BLIP、Stable Diffusion等等)。VFM模型对输入-输出格式的苛求和固定限制,使得其在人机交互方面不如会话语言模型灵活

贡献:

  • Prompt Engineering:将ChatGPT和多个SOTA视觉基础模型连接。

Method

没有任何的训练,系统构成:

  • Part 1 ChatGPT(直接利用大语言集成工具LangChain,调用OpenAI text-davinci-003 version)

  • Part 2 PromptManager

    构造了一个巨大的Prompt,把系统规则、视觉基础模型调用、历史对话、用户query、历史推理、中间结果都包含,简单来说就是指导ChatGPT怎么调用模型,什么时候调用,怎么处理结果。ChatGPT和VFMs之间沟通提到图片的时候使用的是随机生成的uuid(universally unique identifier),两者之间是没有向量或者图片数据交互的。

  • Part 3 VFMs(22个训练好的SOTA视觉基础模型,直接调用,利用4张V100就能全部部署)

Result

  • 不是真正的多模态大模型,不过是普通玩家(小公司)可以尝试的Prompt Engineering。
  • 训练一个多任务的large-scale视觉-语言模型应该非常消耗算力吧,23年3月15日发布的gpt4虽然没有公开详细的技术细节,但我觉得底层加了Vision QA,也就是Image-to-Text的能力,还是很难将I2I,T2I,I2T完全结合再一起的。
  • 不过大力出奇迹,stack more layers,feed more data。
  • 猜测GPT4背后的一些图像能力是靠这样的简单逻辑实现的。

References

  1. 视觉ChatGPT来了,微软发布,代码已开源 - 热点 - 科研解读 - AMiner
  2. visual-chatgpt: 训什么练,我直接prompt一把梭 - 知乎 (zhihu.com)

Paper | Visual ChatGPT Talking, Drawing and Editing with Visual Foundation Models | arXiv2023

https://jennyvanessa.github.io/2023/03/14/2303142003/

Author

Vanessa Ni

Posted on

2023-03-14

Updated on

2023-03-15

Licensed under

Comments

You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.