1. 首页 > 科技资讯

visual studio 开源,microsoft visual stu

近日微软官网在Github开源系统了一个重量级ChatGPT AI交互运用Visual ChatGPT。该运用短短的一天在Github就达到4000星。

Visual ChatGPT启用ChatGPT及其一系列视觉初始模型来并实现在交流环节中推送接收图像,及其动态性对图像予以处理。

此系统的已发布相对应的毕业论文,适用从arxiv免费下载。

系统架构图

Visual ChatGPT架构设计由用户查看一部分(User Query)、交互管理部分(Prompt Manger)、视觉初始模型(Visual Foundation Models,VFM)、启用ChatGpt API和迭代更新交互一部分(Iterative Reasoning),最后就是客户导出(Outputs)一部分

如下图1所显示,客户提交一张红花的图像并键入一个繁杂的语言表达命令“请结合该图像预测深层形成一朵红花,随后逐渐使之像卡通一样”。

在交互管理工具的支持下,Visual ChatGPT 正式开始有关视觉初始模型的落实链。 在实例环境下,它首要运用深度估计实体模型来测试深层信息,然后通过深层到图像实体模型形成含有深层信息的红色花朵图型,最终运用根据平稳扩散模型的风格迁移VFM来调节这个角色的设计风格成了卡通。

在相关管道内,交互管理工具做为ChatGPT的调度器,给予视觉格式种类做好记录信息交换过程。

最终,当Visual ChatGPT从交互管理工具得到“卡通”提醒时,这将完毕实行管路并表明最后的结果。

全部系统流程是

1) 确立告知 ChatGPT 每一个 VFM 能力并特定输出格式;

2)将各种的视觉信息,比如pngimages,深层图像和mask引流矩阵,转换成语言表达格式可以帮助ChatGPT了解;

3) 解决不一样视觉初始模型历史、优先和矛盾。

在交互管理工具的支持下,ChatGPT能够利用这个VFMs并且以迭代更新的形式接受他的意见反馈,直至它满足消费者的规定或做到完毕标准。

VFM

在此项目中一共制定了22种不同的VFM去进行图像数据库的解决,二者之间存有本质关系和职责分工,便于仪器设备协作交互管理工具来达到目标;

部署应用

此系统为了方便以Python语言开发,在其中依靠torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等底层标准库运用。必须python 3.8和coda自然环境为载体

用coda创建一个新领域

conda create -n visgpt python=3.8

激话该自然环境

conda activate visgpt

组装依靠部件

pip install -r requirement.txt

用附加脚本下载视觉初始模型

bash download.sh

填好openai账号客户key值

export OPENAI_API_KEY={Your_Private_Openai_Key}

设定图像储存文件目录

mkdir ./image

运维系统

python visual_chatgpt.py

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejizixun/65831.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666