28.5K Star微软开源图像交互神器 Visual ChatGPT
除了大力投资 Open AI ,微软还亲自下场大搞 AI 。微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。
众所周知,尽管 ChatGPT 的功能非常强大,甚至可以用来写小说写论文,但目前也仅限于文字交流。
Visual ChatGPT 的出现,就像在以文字交流的 APP 中首次添加了表情包功能,而且还是根据用户输入的文本自动生成的 “定制化表情包”,大大提升了 ChatGPT 的趣味性和应用领域。
一方面,ChatGPT(或 LLM)充当通用界面,提供对图像的理解和用户的交互功能。另一方面,基础图像模型通过提供特定领域的深入知识来充当背后的技术专家。
仓库中列出了技术架构及原理图:
Demo 中共进行了三种不同类型的对话,分别是 Visual ChatGPT 接收用户的图像、Visual ChatGPT 根据用户的文本修改图像并发送给用户,以及 Visual ChatGPT 识别图片,并回答用户的提问。Visual ChatGPT 会根据用户的输入,判断是否需要使用 VFM (Visual Foundation Model,视觉基础模型)来处理该问题。
仓库中还给出了 Visual ChatGPT 所使用的图像模型和显存使用情况:
更详细的内容可以阅读 Visual ChatGPT 的 arxiv 论文:https://arxiv.org/abs/2303.04671
使用
说明:如果计算机配置高,需要显卡,可以进行尝试,或者通过 Google Colab 来进行配置
环境安装:
conda create -n visgpt python=3.8 #创建环境 conda activate visgpt #激活环境 pip install -r requirement.txt #准备环境 bash download.sh #下载模型
快速开始
# clone the repo
git clone https://github.com/microsoft/visual-chatgpt.git
# Go to directory
cd visual-chatgpt
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirements.txt
# prepare your private OpenAI key (for Linux)
export OPENAI_API_KEY={Your_Private_Openai_Key}
# prepare your private OpenAI key (for Windows)
set OPENAI_API_KEY={Your_Private_Openai_Key}
# Start Visual ChatGPT !
# You can specify the GPU/CPU assignment by "--load", the parameter indicates which
# Visual Foundation Model to use and where it will be loaded to
# The model and device are sperated by underline '_', the different models are seperated by comma ','
# The available Visual Foundation Models can be found in the following table
# For example, if you want to load ImageCaptioning to cpu and Text2Image to cuda:0
# You can use: "ImageCaptioning_cpu,Text2Image_cuda:0"
# Advice for CPU Users
python visual_chatgpt.py --load ImageCaptioning_cpu,Text2Image_cpu
# Advice for 1 Tesla T4 15GB (Google Colab)
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,Text2Image_cuda:0"
# Advice for 4 Tesla V100 32GB
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,ImageEditing_cuda:0,
Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,
Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,
InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,
Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,
Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,
NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"
更多功能广大网友可以继续挖掘。
相关文章
- visual studio运行程序的快捷键_visual studio快捷方式在哪
- visual studio code使用教程_visual studio code 权威指南 pdf
- 国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
- Visual Studio Code 教程
- Visual Studio 系列调试方法整理
- Visual Studio Code window环境下快捷键大全
- 国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
- chatgpt国内能用吗 国内怎么玩chatGPT使用方法教程
- Visual Studio 2013软件下载和安装教程
- vc60修改快捷键-如何解决Visual c++不能打开文件以及工程不能添加文件的问题
- Visual Studio窗口蛋疼的抖动
- 驱动开发:配置Visual Studio驱动开发环境
- 基于腾讯云CVM如何搭建visual-chatgpt的环境 二
- 【C++ 语言】Visual Studio 配置 POSIX 线程 ( Windows 不支持 POSIX | 配置文件下载 | 库文件说明 | 配置过程 )
- 微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世
- 【Android 逆向】Android 进程注入工具开发 ( Visual Studio 开发 Android NDK 应用 | VS 自带的 Android 平台应用创建与配置 )
- [ChatGPT]SpringBoot快速接入ChatGpt
- [ChatGPT]-01-chatgpt可以做什么?如何调教
- ChatGPT测评:它是一个好用的翻译工具吗?(Chatgpt哪里可以下载)
- Visual Studio Code 1.76 发布
- Exploring Images on Linux with EOG: Enhance Your Visual Experience!(linuxeog)