visual studio 开源，microsoft visual stu

近日微软官网在Github开源系统了一个重量级ChatGPT AI交互运用Visual ChatGPT。该运用短短的一天在Github就达到4000星。

Visual ChatGPT启用ChatGPT及其一系列视觉初始模型来并实现在交流环节中推送接收图像，及其动态性对图像予以处理。

此系统的已发布相对应的毕业论文，适用从arxiv免费下载。

系统架构图

Visual ChatGPT架构设计由用户查看一部分（User Query）、交互管理部分（Prompt Manger）、视觉初始模型（Visual Foundation Models，VFM）、启用ChatGpt API和迭代更新交互一部分（Iterative Reasoning），最后就是客户导出（Outputs）一部分

如下图1所显示，客户提交一张红花的图像并键入一个繁杂的语言表达命令“请结合该图像预测深层形成一朵红花，随后逐渐使之像卡通一样”。

在交互管理工具的支持下，Visual ChatGPT 正式开始有关视觉初始模型的落实链。在实例环境下，它首要运用深度估计实体模型来测试深层信息，然后通过深层到图像实体模型形成含有深层信息的红色花朵图型，最终运用根据平稳扩散模型的风格迁移VFM来调节这个角色的设计风格成了卡通。

在相关管道内，交互管理工具做为ChatGPT的调度器，给予视觉格式种类做好记录信息交换过程。

最终，当Visual ChatGPT从交互管理工具得到“卡通”提醒时，这将完毕实行管路并表明最后的结果。

全部系统流程是

1) 确立告知 ChatGPT 每一个 VFM 能力并特定输出格式；

2）将各种的视觉信息，比如pngimages，深层图像和mask引流矩阵，转换成语言表达格式可以帮助ChatGPT了解；

3) 解决不一样视觉初始模型历史、优先和矛盾。

在交互管理工具的支持下，ChatGPT能够利用这个VFMs并且以迭代更新的形式接受他的意见反馈，直至它满足消费者的规定或做到完毕标准。

VFM

在此项目中一共制定了22种不同的VFM去进行图像数据库的解决，二者之间存有本质关系和职责分工，便于仪器设备协作交互管理工具来达到目标；

部署应用

此系统为了方便以Python语言开发，在其中依靠torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等底层标准库运用。必须python 3.8和coda自然环境为载体

用coda创建一个新领域

conda create -n visgpt python=3.8

激话该自然环境

conda activate visgpt

组装依靠部件

pip install -r requirement.txt

用附加脚本下载视觉初始模型

bash download.sh

填好openai账号客户key值

export OPENAI_API_KEY={Your_Private_Openai_Key}

设定图像储存文件目录

mkdir ./image

运维系统

python visual_chatgpt.py

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.miyuegong.com/kejizixun/65831.html

visual studio 开源，microsoft visual stu

系统架构图

VFM

相关推荐

联系我们