ai image recognition technology，ai and machine learning for coders

AI Codec自2016年第一次提出至今，诸多国内外高等院校、企业研究院等组织对于此事进行了普遍科学研究。6年里，AI Codec 的SOTA策略的压缩特性已经超越了H.266(最新传统式Codec规范)，彰显了强悍的技术性发展潜力。但受制于计算复杂性、非标准等因素，AI Codec在运用落地式层面的案例却寥寥无几。LiveVideoStackCon2022北京站邀请到了来源于双深科技的田康给大家分享根据双深科技的AI Image Codec技术落地式探寻工作经验。

编写/LiveVideoStack

小伙伴们好，此次共享活动的主题为：AI Image Codec技术落地式实践活动，关键将分三部分详细介绍大家在手机端方面取得了的科技成果。第一部分详细介绍图象视频行业发展前景与我们的了解；第二部分简易汇总AI Codec发展趋势；第三部分为核心，即AI Image Codec手机端落地式实践活动。

-01-

图象视频行业发展前景

最先详细介绍图象视频行业发展前景，“大家置身图象数据全面爆发的年代”很有可能已然成为了一项领域的共识。据我们可以从有关机构所取得的调查数据表明，全世界图片视频数据总产量至2025年预计超出140ZB，每一年的数据年复合增长率做到27%，这是一个很可怕的量级。随着国内ChatGPT等新技术的崛起，坚信年增长率还会继续进一步提升。

简易剖析数据量不断增长的主要原因：关键在于在医学、智能安防等应用领域下，影象数据根据国家政策规定需要长时间或永久性存放，造成数据积淀量也越来越大。第二也随着人们对画质清晰、高帧等高品质视频需求的增长，造成数据相对密度提高。第三是伴随着视频数据在网络、智能安防、无人飞机、云游戏平台（区别于传统手机游戏，环节中伴随超很多视频传送）等各种应用领域的扩展增添了数据量大量提高。

那么就要高效率应用这种数据必然伴随压缩、传送存储等最底层技术发展提升，对于我们来说压缩技术性的提高是其中的重要，主要因素有三个：关键在于网络带宽存储的提高也是有短板的。次之对于郊外安全巡检等其它应用领域，提升网络带宽并不是可用。第三是存储网络带宽的提高并没从根源上处理传送数据量巨大这种情况。

上新华社记者大家设计方案的视觉AI运用链接图，先通过监控摄像头或电子计算机生产制造影象具体内容，随后进行处理、视频剪辑或AI审批等操作，并把数据呈拿给客户进行数据查询，环节中很有可能伴随AI动作识别互动或超分，接着传送至储存器开展数据存放。在运用前根据文字、图片、跨模态等检索方式搜索所需要的数据，最后能够对它进行结构型分析和个人隐私/分布式存储等场景。

能够看见整个过程均由编解码去进行对接。另外在每一个环节都会存有AI的使用，那也是数据解决后面的发展方向。

与传统编解码对比，AI端对端编解码在纯天然方面比较融入这一趋势。从优化算法层面来说，AI编解码以提取图像数据直接使用中下游运用，进而节省了中下游svm算法运算量。从硬件层面来说，AI的大规模运用使时下硬件配置或多或少都会地区有AI算率，这同时也为AI编解码的使用奠定了基础。

-02-

AI Codec发展趋势

下面详细介绍AI Codec的高速发展，上新华社记者传统和AI编解码发展史的比较。能够看见，AI Codec压缩特性超越传统的H.264、H.265仅采用了传统技术1/6的高速发展时长。从1988年的H.261到2020年的H.266，相对于传统编解码器均值十年一次的迭代更新工作频率，AI编解码完成了迅猛发展，从2016年端对端编号架构的明确提出到后面GAN、1857规范的使用，甚至后面AIGC编号发展前景的诞生，它在短期内层出不穷可落地的各类新的方法。

另一方面是AI处理芯片市场的发展同时也为AI编解码带来了落地式土壤层。近些年GPT-4、AIGC的大量应用在侧边促进了AI芯片业总体的高速发展，伴随着领域利好消息，高通芯片等知名边沿芯片公司也在逐渐运行对AI芯片研究与开发。其次存算一体、类脑芯片、量子计算机等未来技术为处理芯片算率发展趋势增添了更强市场前景。

-03-

AI Image Codec手机端落地式实践活动

下面详细介绍大家有关AI Image Codec在移动端的落地式实践活动，借助互联网手机端CDN图片派发情景为应用领域，最先表述选用该场景下的缘故。

第一，时下很多社交媒体、内容社区、电子商务APP均涉及到该情景，核心端以一对多形式进行图片的派发，即便是视频这种小视频服务平台也会涉及到许多图片具体内容。并且由于CDN 80%左右经营成本为总流量带宽费用，所以它有非常大的图片压缩需求，提升图片压缩技术性能有效降低成本。第三是该场面为闭环控制情景，能够解决目前AI Codec非标底难题。最后就是移动端的AI算率相比于其他物联网产品极强，能够实现更加好的编解码实际效果。

以上是大家自主研发的AI图象编解码实体模型架构，它被称作ANF。区别于传统编解码器根据分层预测分析解决去进行数据压缩，ANF编解码器在接受图片后，根据神经元网络获取高层住宅清晰度规律性做为数据量化分析和辅助熵实体模型几率预计的重要依据。数据最后传达至传送端开展熵编解码和清晰度复建，给用户展现图片。

大家在整个过程中对于AI练习增设了2个管束，第一是R-Loss，它意味着比特流及超先验的存放数据量；第二是D-Loss，它用来考量输入输出图片间的质量不好，以上两个指标值都要维持尽可能小。

针对该实体模型大家提出了一些优化措施，如果在svm算法环节选用Neighbor-patch-attention对策来参照附近信息内容，获取深度和广度特点。其次在熵实体模型几率预计环节: 选用Space Shuffle对策，提高几率可能精确度。第三要在超实证环节，将部分感受野拓展到全局性感受野来获取更精准的辅助信息。

下图为检测结果，在其中底线意味着ANF实体模型数据，能够看见相较于VVC等其他伺服电机，它检测结果要超过0.5～0.7dB上下。

因为ANF模型架构设计较为复杂，为了更好在手机端中进行运用，大家对它展开了轻量解决，在量化分析和布署加快层面进行了非常多的工作中。在画面质量损害尽可能小前提下尽可能获得加快盈利。

以上就是轻量后ANF模型数据别的编解码器应用LPIPS指标值检测的比较结论，用以考量ANF和其它编解码器之间的差别，这个指标越低意味着压缩后图像和原照主观性品质趋近于。以在多种多样场景中检测能够看见，ANF压缩的图片品质要优于别的编解码器。

在量化指标结论比较好的前提下，大家组织对压缩图象展开了主观性实测，选了数十种不同的场景，约2万张包含不同分辨率的图片做为数据集进行检测。以avif的压缩图象做为标准进行比较，依照三种不一样占比将初始图片用ANF和avif编解码器开展压缩，将压缩后图片从同样部位裁取100*100上下大小的小块，与原照相匹配一小块比照压缩画面质量，最终征选青年志愿者开展专业测评。

下表为实测结论，能够看见同体型下，主观性挑选ANF比例(49.4%)远远高于AVIF(18.6%)，表明ANF主观性品质确实比AVIF好; 体积比为1:1.4时，结果和1:1时同样；体积比为1:2时，挑选ANF和AVIF次数非常，并有比较大占比“不选”，表明二者主观性画面质量非常。

以上是同体积比下，二种伺服电机的检测设计效果图，能够看见ANF压缩图片质量以及原照更加接近。

以上是体积比为1:1.5时，二种伺服电机的检测设计效果图。能够看见ANF的影像小细节实际效果依然非常好。

下面详细介绍ANF的转码速率，大家在高通骁龙8gen1服务平台中对编解码速率展开了检测，应用密封SDK检测从图片加载到最后在手机端表明所需要的时间。能够看见在1080P屏幕分辨率下，ANF平均延迟时间能够达到29.4ms，这种数量级是人的眼睛感觉不到的，能够满足业务需求。

以上是编号吞吐量比照结论，在相同硬件设施下与传统伺服电机对比，ANF可得到10-30倍编号加快。

以上是压缩对二次鉴别检验影响检测结果，选用了精确率和均方误差2个指标值开展考量。能够看见在低压缩短下，ANF压缩图片的测量精度稍高于avif, 二项指标值与原照非常；在大压缩短下，ANF压缩图片的测量精度远远高于avif, 与原照的差距维持在2-5%范畴。

下面进行整理，最先在目前的影像视频全面爆发时期，对于我们来说编解码技术性的提高刻不容缓和势在必行的。第二是数字图像处理AI化的趋势显著，根据AI的编码方法从算法和硬件配置方面均可以更好的协作。第三是AI Codec的发展水平迅速，未来前景光辉；与此同时AI Codec的高速发展也迎合了AI处理芯片发展的方向。最后大家根据AI Codec主观提升，能够超出AVIF 30%之上，编解码高效率可以从高档型号落地式，编码效率明显强于传统式Codec的CPU软编计划方案，具有在CDN图片情景落地可行性分析。我的分享告一段落，谢谢你们！

▲扫描图中二维码或点一下“阅读”▲

点击查看

LiveVideoStackCon 2023上海虹桥站精彩纷呈话题讨论

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.miyuegong.com/kejizixun/71227.html

ai image recognition technology，ai and machine learning for coders

相关推荐

联系我们