首页专栏深度学习文章详情

图像视频压缩：深度学习，有一套

华为云开发者社区 发布于 3 月 23 日

摘要：得益于深度神经网络提取信源特征的能力，深度学习技术在信源压缩编码领域取得了比传统方法更

本文分享自华为云社区《基于深度学习的图像视频压缩编码》，原文作者：罗鹏。

得益于深度神经网络提取信源特征的能力，深度学习技术在信源压缩编码领域取得了比传统方法更优异的效果。

基于深度学习的图像压缩编码

自编码器

Ballé1 提出了一种基于变分自编码器的端到端图像压缩模型，采用结合边信息（side information）的超先验的方案。
模型如下图所示。

Q 表示量化；AE 和 AD 分别表示算术编码和解码；卷积参数表示为层times×长times×宽/下采用或上采样，uparrow↑表示上采样，downarrow↓表示下采样。

Minnen2 提出了一种超先验结合自回归模型的方案。

循环神经网络（Recurrent Neural Network, RNN）

Google3 团队提出一种基于长短期记忆（long short-term memory, LTSM）的神经网络架构对图像进行可变压缩率的编码方法。
模型如下图所示。

上图是基于卷积核逆卷积的残差编码器，将上下层各第二和第三的卷积/逆卷积模块换成 LTSM 模块即为所提出的模型。

Google4 团队在前面工作的基础上引入了 GRU 和 ResNet 模块，并采用熵编码进一步提升了压缩率。

模型如下图所示。

生成对抗网络（Generative Adversarial Network, GAN）

Agustsson5 提出了一种基于 GAN 的图像压缩方案，可选择地对部分/全部图像生成对应语义标签；解码时，正常压缩的图像部分正常解码，无图像部分由 GAN 网络生成。
模型如下图所示。

E_E_ 为编码器；q_q_ 为量化器；G_G_ 为解码和生成器；D_D_ 为对抗器。

基于深度学习的视频压缩编码

基于深度学习的视频编码分为两种：

采用深度学习替代传统视频编码中部分模块端到端采用深度学习编码压缩

部分方案

采样深度神经网络可以替代传统视频编码中的模块包括：帧内/帧间预测、变换、上下采样、环路滤波、熵编码等6。

端到端方案

Lu7 提出了一个端到端采用深度学习进行视频编码压缩的方案；其采用卷积光流估计来进行运动估计，并使用两个自编码器对光流信息和残差信息进行编码压缩。
编码框架如下图所示：

采用一个卷积网络模块进行光流估计8，以作为运动估计。
采用自编码器对光流信息进行压缩，自编码器网络如下图所示：

结合上一帧图像和光流信息，获得运动补偿图像。运动补偿网络如下图所示：

将原图像与补偿图像进行差计算获得残差，残差也使用自编码器压缩。

Rippel9 提出了一种端到端基于机器学习（包括深度学习）的视频压缩方案；采用多帧参考的光流估计做运动估计，采用自编码器对光流信息和残差编码压缩，采用机器学习做码率控制。

Reference

[2018 ICLR]
Variational image compression with a scale hyperprior [2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression [2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks [2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks [2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression [2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study [2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework [2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network [2019 ICCV]
Learned Video Compression

点击关注，第一时间了解华为云新鲜技术~

图像编译器深度学习神经网络视频处理

阅读 102 发布于 3 月 23 日

赞收藏

本作品系原创，采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议

开发者之家

华为云开发者社区，提供全面深入的云计算前景分析、丰富的技术干货、程序样例，分享华为云前沿资讯动态...

关注专栏

华为云开发者社区

华为云开发者社区，提供全面深入的云计算前景分析、丰富的技术干货、程序样例，分享华为云前沿资讯动态，方便开发者快速成长与发展，欢迎提问、互动，多方位了解云计算！

声望

279 粉丝

关注作者

0 条评论

得票数最新

提交评论

你知道吗？

注册登录

华为云开发者社区

声望

279 粉丝

关注作者

宣传栏

基于深度学习的图像压缩编码

自编码器

Ballé1 提出了一种基于变分自编码器的端到端图像压缩模型，采用结合边信息（side information）的超先验的方案。
模型如下图所示。

Q 表示量化；AE 和 AD 分别表示算术编码和解码；卷积参数表示为层times×长times×宽/下采用或上采样，uparrow↑表示上采样，downarrow↓表示下采样。

Minnen2 提出了一种超先验结合自回归模型的方案。

循环神经网络（Recurrent Neural Network, RNN）

Google3 团队提出一种基于长短期记忆（long short-term memory, LTSM）的神经网络架构对图像进行可变压缩率的编码方法。
模型如下图所示。

上图是基于卷积核逆卷积的残差编码器，将上下层各第二和第三的卷积/逆卷积模块换成 LTSM 模块即为所提出的模型。

Google4 团队在前面工作的基础上引入了 GRU 和 ResNet 模块，并采用熵编码进一步提升了压缩率。

模型如下图所示。

生成对抗网络（Generative Adversarial Network, GAN）

E_E_ 为编码器；q_q_ 为量化器；G_G_ 为解码和生成器；D_D_ 为对抗器。

基于深度学习的视频压缩编码

基于深度学习的视频编码分为两种：

采用深度学习替代传统视频编码中部分模块端到端采用深度学习编码压缩

部分方案

采样深度神经网络可以替代传统视频编码中的模块包括：帧内/帧间预测、变换、上下采样、环路滤波、熵编码等6。

端到端方案

采用一个卷积网络模块进行光流估计8，以作为运动估计。
采用自编码器对光流信息进行压缩，自编码器网络如下图所示：

结合上一帧图像和光流信息，获得运动补偿图像。运动补偿网络如下图所示：

将原图像与补偿图像进行差计算获得残差，残差也使用自编码器压缩。

Reference

点击关注，第一时间了解华为云新鲜技术~

人工智能自动驾驶神经网络机器学习数据挖掘 tensorflow

图像视频压缩：深度学习，有一套

基于深度学习的图像压缩编码

自编码器

循环神经网络（Recurrent Neural Network, RNN）

生成对抗网络（Generative Adversarial Network, GAN）

基于深度学习的视频压缩编码

部分方案

端到端方案

Reference

开发者之家

华为云开发者社区

0 条评论

华为云开发者社区

宣传栏

目录

基于深度学习的图像压缩编码

自编码器

循环神经网络（Recurrent Neural Network, RNN）

生成对抗网络（Generative Adversarial Network, GAN）

基于深度学习的视频压缩编码

部分方案

端到端方案

Reference

相关推荐