视觉AI训练营Day1-达摩院视觉AI技术应用探索

2023-12-03 12:49:22

视觉生产技术

定义和分类
精细理解—寻微入里
视觉生成
视觉编辑
视觉增强—修复如新
视觉制造—由虚入实
视觉开放平台—万剑归宗

定义和分类

定义

视觉理解，比如检测、识别、分割
视觉生产，也可以理解为怎么去产生视觉，指通过一个/一系列视觉过程，产出新的视觉表达

通用基础框架

请求（Request）、分发（Dispatch）、服务（Service）和响应（Response）四大部分

五个关键维度

可看：满足视觉/美学表现
合理：合乎语义/内容逻辑
多样：保证结果的丰富性
可控：提供用户预期的抓手
可用：带来用户/商业价值

精细理解——分割抠图

识别：人的识别、物的识别等
检测：位置检测
分割：识别+检测+知道每一个像素是什么
- 视觉分割是生产的必要前置步骤

难点

复杂背景、遮挡、要求高精度（如发丝精抠）、边缘反色、透明材质、多尺度/目标

解题思路

复杂问题拆解：粗mask估计+精准matting
丰富数据样本：设计图像mask统一模型

　视觉生成——从无到有

鹿班

鹿班是针对平面图像设计生成的产品，其视觉生成大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤

照图生图：参考原图，将风格、布局等信息学习并迁移到目标数据上
个性化设计：多元化设计风格，结合商品品类、投放场景、目标客群的差异进行定制化设计

　AlibabaWood

当下最流行的媒体莫过于短视频，而AlibabaWood专注于短视频的生成，同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。它的框架流程总体包括素材准备、基础特效、智能特效和智能编排四大步骤。

视频摘要
视频封面

视觉编辑——移花接木

视频植入

视频植入就是在视频中加入一些本来没有的内容，当前其应用最广泛的就是广告
视频植入是一项非常复杂的技术，需要考虑到方方面面，比如广告位检测、广告位跟踪等等，有时会遇到遮挡、移出屏幕等复杂情况跟踪，而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题

　视频内容擦除

实用技术有字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除等，其核心挑战与亮点是分割，只有更精确的分割才能够精确的擦除

画幅变化

在不同设备上播放视频时可能会出现尺寸不匹配的情况，这时候就要进行画幅变化，变化之后为了有完整的视觉效果，需要进行内容补全。

图像尺寸变化

事先准备好的图片在不同尺寸不同场合可以自动变化，适应各种情况。

视觉增强——修旧如新

视频增强

对视频效果的增强，包括包括单点核心技术和复合应用技术。

单点核心技术：人脸增强、去噪声、通用场景超分、LDR升HDR、倍频、去划痕
复合应用技术、人脸修复、标清转高清、LDR-HDR互转、4K重生、（磁带）老片修复、端上实时增强

实例

人脸修复增强：人脸是最重要的目标对象，可以用视觉增强技术对人脸进行修复增强，突出主要信息
渲染图超分：把低分辨率图像放大到与高清原图一样的清晰度
视频超分：除了对图像进行超分外，还可以对视频进行超分，使得视频更加清晰，增加显示效果
视频插帧：众所周知，帧率越高观感越流畅。对视频进行插帧可以有效的减少视频的卡顿感。
HDR 色彩扩展：除了帧率之外，色彩也是一个很重要的元素，也是视频高清的一个必要条件，运用视觉增强技术可以很好进行HDR 色彩扩展，增强视频显示效果
风格迁移与颜色拓展：视觉增强还可以用来进行风格迁移，比如某些相机软件，可以将一些名画的风格迁移到用户所拍摄的照片上，实现照片的风格多样化。另外，视觉增强还可以进行颜色的拓展，同时产生不同色彩搭配的效果，满足不同的需求和色彩的多样性

　视觉制造——由虚入实

我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题

码农公寓

视觉生产技术

定义和分类

定义

分类

通用基础框架

五个关键维度

精细理解——分割抠图

难点

解题思路

视觉生成——从无到有

鹿班

AlibabaWood

视觉编辑——移花接木

视频植入

视频内容擦除

画幅变化

图像尺寸变化

视觉增强——修旧如新

视频增强

实例

视觉制造——由虚入实

相关文章

　视觉生成——从无到有

　AlibabaWood

　视频内容擦除

　视觉制造——由虚入实