近日微软官网在Github开源系统了一个重量级ChatGPT AI交互运用Visual ChatGPT。该运用短短的一天在Github就达到4000星。
Visual ChatGPT启用ChatGPT及其一系列视觉初始模型来并实现在交流环节中推送接收图像,及其动态性对图像予以处理。
此系统的已发布相对应的毕业论文,适用从arxiv免费下载。
系统架构图
Visual ChatGPT架构设计由用户查看一部分(User Query)、交互管理部分(Prompt Manger)、视觉初始模型(Visual Foundation Models,VFM)、启用ChatGpt API和迭代更新交互一部分(Iterative Reasoning),最后就是客户导出(Outputs)一部分
如下图1所显示,客户提交一张红花的图像并键入一个繁杂的语言表达命令“请结合该图像预测深层形成一朵红花,随后逐渐使之像卡通一样”。
在交互管理工具的支持下,Visual ChatGPT 正式开始有关视觉初始模型的落实链。 在实例环境下,它首要运用深度估计实体模型来测试深层信息,然后通过深层到图像实体模型形成含有深层信息的红色花朵图型,最终运用根据平稳扩散模型的风格迁移VFM来调节这个角色的设计风格成了卡通。
在相关管道内,交互管理工具做为ChatGPT的调度器,给予视觉格式种类做好记录信息交换过程。
最终,当Visual ChatGPT从交互管理工具得到“卡通”提醒时,这将完毕实行管路并表明最后的结果。
全部系统流程是
1) 确立告知 ChatGPT 每一个 VFM 能力并特定输出格式;
2)将各种的视觉信息,比如pngimages,深层图像和mask引流矩阵,转换成语言表达格式可以帮助ChatGPT了解;
3) 解决不一样视觉初始模型历史、优先和矛盾。
在交互管理工具的支持下,ChatGPT能够利用这个VFMs并且以迭代更新的形式接受他的意见反馈,直至它满足消费者的规定或做到完毕标准。
VFM
在此项目中一共制定了22种不同的VFM去进行图像数据库的解决,二者之间存有本质关系和职责分工,便于仪器设备协作交互管理工具来达到目标;
部署应用
此系统为了方便以Python语言开发,在其中依靠torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等底层标准库运用。必须python 3.8和coda自然环境为载体
用coda创建一个新领域
conda create -n visgpt python=3.8
激话该自然环境
conda activate visgpt
组装依靠部件
pip install -r requirement.txt
用附加脚本下载视觉初始模型
bash download.sh
填好openai账号客户key值
export OPENAI_API_KEY={Your_Private_Openai_Key}
设定图像储存文件目录
mkdir ./image
运维系统
python visual_chatgpt.py
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejizixun/65831.html