给手机配上AI技术 拍出的照片真能比肩单反?
【网易智能讯3月28日消息】目前,出现在新一代智能手机上的3D传感器,只是机器学习所引发的摄影技术浪潮的冰山一角,该类技术将不仅仅纠正智能手机照片的缺点,还将为摄影带来一些令人惊叹的新元素。
摄影在智能手机时代已经发生了改变,不仅拍摄姿势不同(比如自拍),手机摄像头捕捉光线的整个过程也变得完全不一样了。摄像头不再只是一个透镜和传感器,它们还集成了一组算法,这些算法可以立即处理图像,瞬间就能获得桌面软件耗费数小时才能实现的照片效果,摄影已然成为计算领域的一门学问。
人工智能机器学习形式持续不断的进步将会带来更多的功能,让今天的智能手机照片变得过时。
外媒认为,体现当今手机的尖端摄影技术的最新例子包括:Alphabet子公司谷歌的Pixel 3智能手机照片,以及苹果iPhone X的照片。在Pixel 3上,谷歌使用机器学习在低光照条件下捕捉更多的细节,使得夜景看起来像白天。这些根本不是自然界中曾经存在过的镜头,它们完全是超分辨率的图片。
从2017年推出iPhone X开始,苹果公司添加了“bokeh”,巧妙地模糊了焦点之外的元素,这并不是像传统摄影那样通过镜头本身的某些方面来实现的,而是通过在捕捉到图像后对像素进行计算调整来实现的。
“移轴”相机
我们预测,2019年和2020年的突破性发展很有可能是通过操控图像的视角来改善,希望这能纠正智能手机摄影中固有的失真问题,这些失真使得智能手机在数码单反(DSLR)相机照片面前相形见绌。
卷积神经网络(CNN)试图从一张图片中重构现实的过程
事实上,它们可以达到类似于“移轴”相机的效果。在移轴相机中,镜头所成的角度可弥补一个人站在相机前的角度,从而纠正由于个人与场景之间的角度造成的图像失真。单反相机用户可以在由不同的供应商提供的各种可拆卸镜头中实现移轴功能。
一般的手机摄像头都有一个非常小的透镜镜筒,因此它所捕捉到的一切东西都是扭曲的。在现实世界中,没有什么形状是恰到好处的。大多数人可能不会注意到,又或者可能不会在意,因为他们已经习惯了Instagram上的自拍。但如果能改善这些畸变就更好了。这一点能做到的话,那么它将会是来自谷歌、苹果等公司的下一轮智能手机主推的一个卖点。
iPhone和其它品牌的手机将越来越多地搭载带有3D传感器的后置摄像头。这些传感器由Lumentum Holdings和其他的芯片供应商等公司制造,通过发出光束并计算它们在物体反弹后如何返回手机,来测量手机周围环境的深度。“飞行时间”等技术可以让手机详细测量周围环境的三维结构。
那些传感器可以利用的是,近年来为了解二维图像和现实世界之间的关系而进行的大量统计工作。
谷歌Pixel 3智能手机上的“夜景”功能
人们做了大量的统计工作来实现移轴镜头那样的物理特性,不管是有特殊摄像装置的,还是没有特殊摄像装置的。例如,一项名为“随机抽样一致性”(RANSAC)的技术可以追溯到1981年,专门用于寻找三维世界中的地标,这些地标可以映射到二维图像平面上的点,以便了解二维图像与三维现实世界之间的关系。使用这种技术,可以更好地理解二维呈现是如何与现实世界相对应的。
2015年,佛罗伦萨大学的一组研究人员在RANSAC技术的基础上,通过对相机拍摄的照片进行逆向推理,推导出了一种泛倾斜变焦相机的结构,他们能够通过软件来分析相机位置的不同在多大程度上引发了失真,从而有效地将控制相机的执行机构调至最佳状态,他们可以将这种技术用于视频,而不仅仅是用于静止的图像。
2017年,德国埃尔兰根-纽伦堡大学和伍兹霍尔海洋学研究所的研究人员展示了一个名为CameraTransform的Python库,该库可让人们通过对拍摄的图像进行逆向计算,来估算物体在现实世界中的真实尺寸。
四角观察:研究人员创建的一种神经网络,由编码器和解码器结合生成的对抗性网络组成,被用于推断图片中被遮挡的物体
去年,德国慕尼黑工业大学和佳能公司的研究人员表示,只需拍一张图片就可以推断出被另一个物体遮挡的场景中有什么。这种技术被称为“分层深度图像”,可以通过从照片中移除一个物体来创建新的场景,呈现相机从未见过的背景,但这是通过图像计算实现的。该方法使用了许多神经网络应用中常见的编码-解码器方法来估计场景的深度,也使用了“生成对抗网络”(GAN)来构造场景中在拍摄照片时从未实际出现在视野里的部分。
所有的这些研究正在不断涌现,并将在下一代配备3D传感器的智能手机摄像头上达到高潮,带来一些不可思议的功能特性。这种研究应该会带来令人惊叹的成果。至少,人们可以想象,用智能手机拍摄出的人像不再会出现怪异的面部扭曲。超分辨率的建筑图片将有可能通过消除镜头上的所有扭曲而形成平行线。随着手机变得能够大量产生精确度和逼真度皆十分惊人的照片,智能手机行业将能够在与单反相机的交锋中取得又一场胜利。
但是,智能手机摄影的长期趋势当然是远离现实主义,而转向取得更引人注目的效果。这在计算摄影诞生之前是无法想象的。因此,我们可能会看到3D传感技术的应用趋向于超现实主义。
举例来说,移轴相机可以用来创造一些出奇漂亮的效果,比如缩小景深到一个极端的程度,这会使得风景看起来就像玩具模型,但效果还是出奇的好,有些手机应用程序也能做到类似的事情,但将3D传感器与人工智能技术结合起来的效果,将远远超出那些应用程序所能达到的效果,Photoshop中有实现移轴的技术,但是每次按下快门按钮,相机都会产生同样的效果,毫无疑问会让人更加心满意足。
光靠人工智能可行吗?
未来,在推进机器学习技术方面,会有另一个重要的阶段。我们有可能会放弃使用3D传感器,而仅仅使用卷积神经网络(CNN)来推断物体在空间中的坐标,这将节省在手机中安装传感器的费用。
然而,就像微软的研究人员和学术合作者在本周发表的一份报告中所讨论的那样,目前这种只使用软件的方法收效甚微。他们写道,只使用软件的方法被称为“绝对姿态回归”(absolute pose regression),在经过训练后它并未能推而广之,这意味着无论卷积神经网络掌握了什么技术,在用新图像进行测试时,它都无法准确估量几何图形。
该报告的作者认为,他们的研究是对纯软件方法的“一项重要的合理性检查”。他们的结论是,“姿态回归方法要变得切实可行,还长路漫漫。”
这项工作将如何完成呢?不仅仅依靠研究人员。它将需要许许多多的智能手机用户的参与。有了带有3D传感器的新型手机,他们将能够拍摄出令人印象深刻的3D感应增强图像。当他们这样做的时候,他们的设备,或者云,将会跟踪现实世界的几何结构与二维图像之间的关系。
换句话说,它将利用所有的这些活动来持续进行学习,总有一天,只要有足够的3D图像,卷积神经网络或任何其它被使用的算法都能足够聪明地观察这个世界,即使没有3D传感器帮助提供深度感知能力,也能准确地知道这个世界是什么样的。