MENU
项目介绍:

CINNO Research产业资讯,嵌入式摄像头这一想法并不新鲜,实际上,从视频会议的早期开始,人们就认识到摄像头和显示器的分离会造成交互系统无法准确传达人们“注视”的信息。时至今日,视频会议系统仍然不能够重建眼神交流体验,而这些刚好又是有效交流的关键要素。

 

根据Microsoft 官网显示,除了没办法实现眼神交流,这种系统最近又出现了第二个挑战:当前智能手机等小型设备一直在追求屏占比的提升,所以目前的摄像头设计已经越来越大程度地成为了设计瓶颈。

 

屏下摄像头设计的概念是将相机放在屏幕后面,理论上这种方案可以解决这些问题,但是这样做会降低所拍摄图像的质量。屏幕像素结构的衍射效应会让所拍摄图像变得模糊,对比度和可用光线水平降低甚至完全阻挡某些图像内容的显示,具体的影响取决于设备像素的设计。

 

此外,还有其他一些方法可以像屏下摄像头设计方案一样让视频会议不受空间因素的影响,这些影响会扭曲参与者对彼此大小和位置的感知。

 

在这个项目中,我们研究了机器学习如何帮助克服屏下摄像头方案带来的图像质量下降问题。另外,它还可以帮助系统构建更自然的远程对话环境。

 

透视问题


将相机放置在显示屏上方会带来一种俯视观察的效果,这与面对面交谈有所不同,尤其是在大型显示屏上,这会给人一种对方说话时低头的感觉。

 

还有一点问题,那就是相机与显示器之间的距离会让参与者失去眼神交流体验。举个例子,我直接在屏幕上注视你的眼睛时,你可能觉得我在观察你的脸;相反,如果我直接注视相机,给你一种注视你眼睛的感受,实际上我无法看到你的眼睛,这时我会错过很多你非语言的信息。

 

考虑到这两个问题,这看起来更像是一种视频监控而不是视频对话!

 

图1. 不同相机位置对应的拍摄效果:a.相机位于显示器上侧;b.相机位于显示器屏下


正是因为这些问题的存在,目前的视频会议还不能真正实现类似于现实生活中面对面的对话效果。不过,如果将摄像机做在显示屏幕上或者以下的地方,即摄像机与屏幕上远程参与者面部出现的位置重合,这时就可以获得更为自然的视角和眼神交流体验。

 

衍射问题


使用透明OLED显示器(T-OLED,Transparent OLED),我们可以将相机放置在屏幕后面,从而有机会解决上述透视问题。但是,实际上几乎所有的屏幕都不是完全透明的,所以屏幕像素衍射和噪声造成图像质量降低的问题是不可避免的。

 

在这里,我们可以对比直接拍摄和通过T-OLED屏幕拍摄简单图像的效果:

 

图2. 不同拍摄方式下的白点效果:a.直接拍摄的效果;b.通过T-OLED拍摄的效果

 

这里的衍射程度和像素结构有关系,上述案例中T-OLED使用的结构如下:



 

图3. 摄像机(右)通过T-OLED像素结构拍摄屏幕前对象的示意图

 

显然,这种衍射效应会导致明显的图像质量降低,不过只会在水平方向上。我们可以通过如下调制传递函数(MTF,Modulation-Transfer Function)来可视化此效果:

 

图4. 调制传递函数对比:水平方向具有较大衍射影响,垂直方向衍射影响可忽略

 

使用U-Net进行图像恢复


为了补偿通过T-OLED屏幕拍摄时固有的图像质量下降,我们使用了U-Net神经网络结构,它既可以提高信噪比又可以对图像进行清晰化(De-blur)处理。

 

利用这种方法,我们能够获得与直接拍摄的图像几乎没有区别的恢复图像,效果如下:

 

 图5. 图像优化重现示意:(a)普通相机拍摄效果;(b)通过T-OLED拍摄的效果;(c)结合U-Net神经网络结构优化后的效果

 

上述将相机设计在显示器中并保持良好图像质量的能力,为长期存在的眼神交流和视角问题提供了有效的解决方案。

 

构建对话框架


空间因素也会影响对话效果,目前的视频会议系统都没有考虑这些因素。实际上,参与者相对于彼此的位置以及他们之间的距离(近距离)都是非语言的交流信息。如下图6所示,我们可以通过调整发言人在显示器上的位置和大小,来将这些信息放入远程对话的虚拟环境中。

 

图6. 人际距离(距中心):亲密的,个人的,社会的和公共的

 

 图像分割


我们设计了一种卷积神经网络(CNN,Convolutional Neural Network)结构以在图像中找到说话的人。

 

 

图7. 神经网络结构用于从视频源中找到说话的人

 

首先,我们进行了语义分割,以识别并定位图像中的人。

 

图8. 通过语义分割找到图像中的人

 

接下来,我们再进行深度分割以找到最接近的那个人,然后将其定为当前的发言人。(这种简单的技术在只有一个主扬声器的情况下效果很好,但是如果遇到更复杂的多扬声器场景,则需要应用更复杂的技术。)

 

l 校正比例(Correcting scale)

在远程视图中确定了讲话者之后,我们可以进一步缩放传入的视频,以便远程参与者以逼真的尺寸出现在本地显示器上。

 

图9. 图像校正示意:(a)图为原始传入图像;(b)图为校正比例后的图像

 

实现此动作的一种方法就是缩放整个图像,然后将其重新放到说话位置的中心。但是,对于这个项目,我们做得更细,如下视频所示,我们独立于背景提取并缩放了其中的对象:

 

 

图10. 缩放并重新调整说话对象所在位置

 

将说话对象与背景隔离开来会带来更多选择,你可以进一步筛选出分散注意力或包含敏感信息的背景;你还可以使用背景区域显示其他信息,例如演讲者正在谈论的演示幻灯片或视频。

 

结论


结合屏下摄像头方案和神经网络分割卷积方法,我们实现了眼神交流的校正,缩放和重定位,这让视频会议的人机交互更加自然。另外,使用U-net神经网络可以有效地消除由于将摄像机放置在屏幕后面而产生的衍射和噪声。最后,视频的实时分段技术还可以将演讲者与所选背景内容重新组合。


事宜人群:
产品详情

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

CINNO Research产业资讯,嵌入式摄像头这一想法并不新鲜,实际上,从视频会议的早期开始,人们就认识到摄像头和显示器的分离会造成交互系统无法准确传达人们“注视”的信息。时至今日,视频会议系统仍然不能够重建眼神交流体验,而这些刚好又是有效交流的关键要素。

 

根据Microsoft 官网显示,除了没办法实现眼神交流,这种系统最近又出现了第二个挑战:当前智能手机等小型设备一直在追求屏占比的提升,所以目前的摄像头设计已经越来越大程度地成为了设计瓶颈。

 

屏下摄像头设计的概念是将相机放在屏幕后面,理论上这种方案可以解决这些问题,但是这样做会降低所拍摄图像的质量。屏幕像素结构的衍射效应会让所拍摄图像变得模糊,对比度和可用光线水平降低甚至完全阻挡某些图像内容的显示,具体的影响取决于设备像素的设计。

 

此外,还有其他一些方法可以像屏下摄像头设计方案一样让视频会议不受空间因素的影响,这些影响会扭曲参与者对彼此大小和位置的感知。

 

在这个项目中,我们研究了机器学习如何帮助克服屏下摄像头方案带来的图像质量下降问题。另外,它还可以帮助系统构建更自然的远程对话环境。

 

透视问题


将相机放置在显示屏上方会带来一种俯视观察的效果,这与面对面交谈有所不同,尤其是在大型显示屏上,这会给人一种对方说话时低头的感觉。

 

还有一点问题,那就是相机与显示器之间的距离会让参与者失去眼神交流体验。举个例子,我直接在屏幕上注视你的眼睛时,你可能觉得我在观察你的脸;相反,如果我直接注视相机,给你一种注视你眼睛的感受,实际上我无法看到你的眼睛,这时我会错过很多你非语言的信息。

 

考虑到这两个问题,这看起来更像是一种视频监控而不是视频对话!

 

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图1. 不同相机位置对应的拍摄效果:a.相机位于显示器上侧;b.相机位于显示器屏下


正是因为这些问题的存在,目前的视频会议还不能真正实现类似于现实生活中面对面的对话效果。不过,如果将摄像机做在显示屏幕上或者以下的地方,即摄像机与屏幕上远程参与者面部出现的位置重合,这时就可以获得更为自然的视角和眼神交流体验。

 

衍射问题


使用透明OLED显示器(T-OLED,Transparent OLED),我们可以将相机放置在屏幕后面,从而有机会解决上述透视问题。但是,实际上几乎所有的屏幕都不是完全透明的,所以屏幕像素衍射和噪声造成图像质量降低的问题是不可避免的。

 

在这里,我们可以对比直接拍摄和通过T-OLED屏幕拍摄简单图像的效果:

 

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图2. 不同拍摄方式下的白点效果:a.直接拍摄的效果;b.通过T-OLED拍摄的效果

 

这里的衍射程度和像素结构有关系,上述案例中T-OLED使用的结构如下:



 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图3. 摄像机(右)通过T-OLED像素结构拍摄屏幕前对象的示意图

 

显然,这种衍射效应会导致明显的图像质量降低,不过只会在水平方向上。我们可以通过如下调制传递函数(MTF,Modulation-Transfer Function)来可视化此效果:

 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图4. 调制传递函数对比:水平方向具有较大衍射影响,垂直方向衍射影响可忽略

 

使用U-Net进行图像恢复


为了补偿通过T-OLED屏幕拍摄时固有的图像质量下降,我们使用了U-Net神经网络结构,它既可以提高信噪比又可以对图像进行清晰化(De-blur)处理。

 

利用这种方法,我们能够获得与直接拍摄的图像几乎没有区别的恢复图像,效果如下:

 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

 图5. 图像优化重现示意:(a)普通相机拍摄效果;(b)通过T-OLED拍摄的效果;(c)结合U-Net神经网络结构优化后的效果

 

上述将相机设计在显示器中并保持良好图像质量的能力,为长期存在的眼神交流和视角问题提供了有效的解决方案。

 

构建对话框架


空间因素也会影响对话效果,目前的视频会议系统都没有考虑这些因素。实际上,参与者相对于彼此的位置以及他们之间的距离(近距离)都是非语言的交流信息。如下图6所示,我们可以通过调整发言人在显示器上的位置和大小,来将这些信息放入远程对话的虚拟环境中。

 

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图6. 人际距离(距中心):亲密的,个人的,社会的和公共的

 

 图像分割


我们设计了一种卷积神经网络(CNN,Convolutional Neural Network)结构以在图像中找到说话的人。

 

 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图7. 神经网络结构用于从视频源中找到说话的人

 

首先,我们进行了语义分割,以识别并定位图像中的人。

 

微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图8. 通过语义分割找到图像中的人

 

接下来,我们再进行深度分割以找到最接近的那个人,然后将其定为当前的发言人。(这种简单的技术在只有一个主扬声器的情况下效果很好,但是如果遇到更复杂的多扬声器场景,则需要应用更复杂的技术。)

 

l 校正比例(Correcting scale)

在远程视图中确定了讲话者之后,我们可以进一步缩放传入的视频,以便远程参与者以逼真的尺寸出现在本地显示器上。

 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图9. 图像校正示意:(a)图为原始传入图像;(b)图为校正比例后的图像

 

实现此动作的一种方法就是缩放整个图像,然后将其重新放到说话位置的中心。但是,对于这个项目,我们做得更细,如下视频所示,我们独立于背景提取并缩放了其中的对象:

 

 微软提出利用U-Net神经网络机器学习改善屏下摄像头拍摄画面像素下降问题

图10. 缩放并重新调整说话对象所在位置

 

将说话对象与背景隔离开来会带来更多选择,你可以进一步筛选出分散注意力或包含敏感信息的背景;你还可以使用背景区域显示其他信息,例如演讲者正在谈论的演示幻灯片或视频。

 

结论


结合屏下摄像头方案和神经网络分割卷积方法,我们实现了眼神交流的校正,缩放和重定位,这让视频会议的人机交互更加自然。另外,使用U-net神经网络可以有效地消除由于将摄像机放置在屏幕后面而产生的衍射和噪声。最后,视频的实时分段技术还可以将演讲者与所选背景内容重新组合。


猜您可能喜欢 / JDCP More