• 20
科学家通过你身边植物的振动,就可分析出你在说什么!
统计 阅读时间大约5分钟(1802字)

2014-08-06 科学家通过你身边植物的振动,就可分析出你在说什么!

来自麻省理工学院、微软以及Adobe公司的研究人员已经开发出了一种算法,这种算法可以通过分析视频对象的振动重建音频信息。在一组实验中,他们能够通过隔音玻璃,在15英尺远的地方从土豆片包装袋的振动中解读出易懂的语言。

猎云网8月6日报道 (编译:福尔摩望)

来自麻省理工学院、微软以及Adobe公司的研究人员已经开发出了一种算法,这种算法可以通过分析视频对象的振动重建音频信息。在一组实验中,他们能够通过隔音玻璃,在15英尺远的地方从土豆片包装袋的振动中解读出易懂的语言。

在其他实验中,他们从一个拍摄铝箔、一杯水的表面、甚至一个盆栽植物的叶子的视频中提取出了有用的音频信号。研究人员将会在今年的超级计算机图形学会会议Siggraph上提出他们的发现。

一名麻省理工学院电气工程和计算机科学系的毕业生Abe Davis(研究报告的第一作者)说:“当声音碰到一个物体时,会引起该物体的振动。这个振动产生了一个非常微妙的肉眼无法观察的视觉信号。人们现在还没意识到这些信息的存在。”

在Siggraph论文上联名签署的还有Frédo Durand和Bill Freeman——两人都是麻省理工学院的计算机科学与工程专业的教授;Neal Wadhwa——Freeman小组的毕业生;Michael Rubinstein——来自微软的研究员,其博士毕业于Freeman;还有Gautham Mysore——Adobe公司的研究员。

从视频中重建音频需要视频样本的频率(每秒捕捉的视频帧数量)高于音频频率。在他们的一些实验中,研究人员使用了一个每秒可捕捉到2000到6000视频帧的高速摄像头。这远远高于一些智能手机的每秒60帧的频率,但是要远低于一些每秒最高可达10万帧的商用高速摄像头。

然而,在其他实验中,他们使用的是普通的数码相机。由于大多数摄像头传感器的设计上存在的巧合,即使视频是每秒记录标准的60帧,研究人员依旧能够检测到高频振动的信息。虽然音频重建并不能和高速摄像头一样精确,但是它仍然可以很好地确定房间里说话者的性别、人数,甚至可以根据说话者声音的声学特性获得足够精确的信息——说话者的身份。

研究人员的技术可以很好地应用在执法取证中,但是Davis对此相当激动,并称之为“新型成像”。他说:“我们正从物体中读取声音,这给了我们很多物体周围声音的信息,但是也给了我们很多物体本身的信息。因为不同的物体反射声波的方式不一样。”在正在进行的研究中,研究人员已经开始尝试从物体本身短时间内对声音的反射情况来鉴别物体的材料和结构。

在Siggraph论文提及的实验中,研究人员还测量了物体在运动时的机械性能,确定了他们所测量到的运动范围大约是十分之一微米。虽然这只相当于特写图象的一个像素的千分之五,但是从单个像素的颜色值随时间的变化来看,其运动范围很有可能小于一个像素。

例如,我们假设一个图像的两个区域有清晰的边界:边界的一侧全部都是蓝色,而另一侧全部都是红色。但是在边界,摄像头传感器能同时接受到红色光和蓝色光,所以混合后产生了紫色光。如果除去连续的视频帧,即使小于一个像素的宽度,蓝色光区域仍会侵入到红色光区域,这会导致紫色光辉轻微的变蓝。这种颜色的偏移包含了侵入程度的信息。

然而,图像中的一些边界要比一个单像素还模糊。所以研究人员借用了一个早期工作中用到的算法,这个算法放大视频的极小变化,并使先前没有检测到运动显现出来:医院新生儿病房里婴儿的呼吸或者手腕处脉搏的跳动。

这项技术通过图像过滤器的一节电池,可以传递用来衡量波动变化的连续的视频帧,例如边界上沿水平、垂直、对角甚至是几个不同角度的不同方向不断变化的颜色值。

研究人员开发出了一种算法,这种算法可以在物体被声波击中后,结合滤波器的输出来推断出该物体作为一个整体时的运动情况。

一个物体的不同边缘可能会向不同的方向运动,所以这个算法首先会记录所有的测量结果,这样它们就不会彼此抵消。同时,它也偏向于不同颜色值间的清晰边界的测量。

研究人员为了分析传统意义上的视频创造出了基于该算法的衍生算法。即使是商业设备,数字摄像头的传感器也包含数以万计的光电探测器阵列。事实上,设计这种传感器硬件并不昂贵,所以它一次可以读取一行光电探测器的测量数据。通常来说,这并不是一个问题,但是对于快速运动的物体,它可能会导致奇怪的视觉假象。以直升机为例,它可能会在可被检测的一行读入和下一行读入间运动。

对于Davis和他的同事来说,这个错误可以看成一种功能。尽管传统视频中物体边缘的轻微扭曲裸眼无法查别,但是它包含了该物体高频振动的信息。这些信息足以产生一个模糊但可能有用的音频信号。

加州大学伯克利分校电气工程和计算机科学系的副教授Alexei Efros说:“ 这是全新的,令人耳目一新的,到目前为止,还没有其他研究小组能够完成。我们是科学家,有时候我们也看James Bond这样的电影。我们认为‘这是好莱坞的戏剧,那样做是不可能的,这是荒谬的。’但是,突然,你就拥有了它。这完全不同于好莱坞的恐怖片,你会看到由于他的薯片袋振动的监控录像凶手不得不认罪。”

Efros认为,材料性能的表征会使这项技术很好地应用。但是他补充道:“我确信这将会是一个没人会预料到的应用。我认为好科学的标志是当你做某件事是因为你觉得这很酷,然后有人把它应用到你完全想象不到事物身上。有这种创意的东西真是太好了!”

Source:MIT

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×