ECCV18 Oral | MIT&谷歌视频运动放大让计算机辅助人眼“明察秋毫”-白红宇

ECCV18 Oral | MIT&谷歌视频运动放大让计算机辅助人眼“明察秋毫”

阅读量：106 次

发布时间：2019-02-26

本文共 893 字，大约阅读时间需要 2 分钟。

标题：视频运动放大技术：深度卷积神经网络助力计算机辅助人眼“明察秋毫”

引言：视频运动放大技术是一种从视频到视频的滤波处理技术，旨在放大视频中肉眼看不到的小型运动。这种技术在建筑健康监测和医疗环境中的人体生命信号检测等领域具有重要应用价值。然而，现有技术往往因滤波器设计不够理想而导致噪音和模糊效果，限制了其实际应用潜力。本文通过深度卷积神经网络（Deep Convolutional Neural Networks, DCNN）从样本中学习运动放大滤波器，提出了一种新方法，有效解决了这一问题。

本文的主要贡献：本文提出了一种基于深度卷积神经网络的视频运动放大方法。与传统手工设计滤波器的方法不同，本文采用了人工合成的数据集，能够更好地捕捉视频中的小型运动。通过对比实验，我们证明了学习得到的滤波器在真实视频处理中表现优于现有方法，显著降低了振铃伪像和噪声放大现象。

网络架构：我们设计了一种简洁高效的网络架构，包含输入层、特征提取层和输出层。输入层接收待处理视频帧，特征提取层通过深度卷积操作提取视频运动特征，输出层则生成最终的运动放大效果图。

数据合成方法：为训练高质量的运动放大模型，我们采用了MSCOCO数据集中的图像作为前景，结合PASCAL VOC数据集中的目标作为背景。通过合理设计运动系数和尺度系数等参数，我们成功构建了包含丰富运动特征的合成视频数据集。

处理结果示例：实验结果表明，本文方法在视频运动放大方面的性能显著优于传统方法。例如，在高速运动物体的处理中，我们的算法成功消除了一些伪影现象，同时保持了良好的视觉效果。

论文引用：该研究成果已发表在2018年欧洲计算机视觉会议（ECCV'18）口头报告中，论文标题为《Learning-based Video Motion Magnification》。我们也开源了相关代码，供研究人员和开发者参考。

如需了解更多细节，可以访问以下链接：