?????????? 看最新的文章,可以紧跟研究的热点;看经典的论文,可以理清研究的思路和方向,为什么这样,为什么不同的人有不同的观点,他们研究分析问题的出发点是什么?我们的目标是什么,要解决什么样的问题,如何解决,可能的模型是什么。建立模型,求解模型,得到结果,理论分析。 " />

对于计算机视觉的一些思考




rel="File-List" href="file:///C:%5CDOCUME%7E1%5Cdaviddai%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_filelist.xml">




?????????? 看最新的文章,可以紧跟研究的热点;看经典的论文,可以理清研究的思路和方向,为什么这样,为什么不同的人有不同的观点,他们研究分析问题的出发点是什么?我们的目标是什么,要解决什么样的问题,如何解决,可能的模型是什么。建立模型,求解模型,得到结果,理论分析。


?????????? 想想我研究的方向,目的是什么:从图像、视频中获得对于三维世界的认知,理解三维世界。也就是说要从海量、大量图像中让机器实现自动的认知、理解。到这里有两个关键问题出现了,一个是海量和大量图像,一个是自动的处理,而在处理的输入上我们希望的是任意的图像和视频,那么对于其就不应该有过多的要求,任意,正如我们人类,从大量的图像中认知世界。图像之间的变化自然是任意的,从本质上将都是利用相机对于真实三维世界的观察、采样,相机系统进行的模型是投影变换,是透视相机模型,实现了从三维信息到二维图像的映射,每个图像都是部分观察,成像的过程不仅有位置信息的变化过程还有颜色的变换,颜色信息是我们人类认知世界的重要因素,当然还有纹理,经过这样的系统,我们获得大量观察,我们的目的是希望计算机能够像我们人类一样,将这些图像进行自动的组织、处理,使得我们获得全景,获得三维模型,获得合成视角,可以注解图像,可以定位,可以测量,可以对于三维模型进行编辑,可以复原现场,可以获得场景的时间、空间关系,可以进行变化检测,可以识别场景,可以计数,可以检索,可以自动漫游等等。


?????????? 针对上面提到的三个问题:



1.?
数据量大,对于图像源,互联网的发展为我们提供了大量场景图像,通过Google,Flickr语义检索可以获得大量图像,当然作为关键字检索的结果,是存在错误情形的,这些图像千差万别,拍摄条件(位置、角度、时间)差异很大;另一种数据源是视频数据,这个数据量也很大,几个小时的拍摄会产生25×3600×n 几万到几十万的图像,当然视频具有视频的特点,连续性好,即可以在视频数据中采样处理,而且数据获取上具有内参数等等的连续性,因此其处理似乎相对容易,当然尚没有这样的完整系统,其中的问题值得继续研究,其最主要的特点是人为控制,但是将来等我们针对用户上传的视频重建三维世界的时候,数据量将迅速增加。



2.?
自动化处理是难点,我们希望系统能够直接根据输入的图像自动重建,但是在自动实现方面还有很大的*蛟谕枷窕蛘呤悠凳莼袢∩系娜我庑裕彝嘶樾我彩悄训悖馗吹慕峁挂不嵩斐纱淼睦眩



3.?
处理的效率:Snavely2006年的处理对于几百上千幅图像的处理需要几天的时间,今年来也提出了一些加速算法,但是效率仍是核心,距离实时算法差距遥远,现在很多倾向于使用GPU,当然这样的应用肯定是专业型的。



4.?
渐增式的重建,从少量的图像出发每增加图像均会改*峁梗形⒌鳎俏侍馐钦庋慕峁顾俣热绾危


??????????


?????????? 从上面的分析可以看出,这样的系统其实就是在模拟人类对于世界的认知过程,计算机视觉说到底就是让计算机(机器人)通过图像认知世界。我感觉在认知方面主要有两个方面,即获得几何信息和获得类别属性信息。对于几何信息的认知基本思路就是单目、双目、多目,利用对应信息恢复和重建观察的世界。而类别属性信息的认知现在主流的思路就是按照模式识别的思路,首先获得局部信息得到描述符,然后设计各种分类器进行训练学*。现在来看几何这里做的相对成熟,最*的热点在识别方面。几何的思路虽说成熟完整,但是尚有大量的问题没有得到完美解决,展开来讲,主流的思路是首先提取局部描述符,进行匹配建立对应关系,追踪Track,对于摄像机进行定标,恢复三维结构。但是单单在局部描述方面就仍是Open的问题,Harris,Canny,SIFT,20多年的发展,到SIFT的提出很大程度上成为匹配的Gold Standard算法,但是误匹配仍然存在;在得到匹配恢复结构的SfM上,基本已经形成标准流程,对应-----》基础矩阵、本质矩阵------》分解得到Relative Pose------》Global Registration-----》Reconstruction。每一部分都有多种算法性能不同,基础矩阵的估计,线性的,非线性的,8点,7点,6点,5点基本完整了,Ransac也已经成为一种基本方法,它的应用使得Minimal问题的研究得到重视,从two view five points, three views four points到有无定标等多个Minimal问题,目的均在于增强稳定性,想尽办法去除噪声的影响,当然Ransac方法的效果在有些极端和退化情形下的能力还需要增进,看来噪声是信号处理永恒不变的话题。从本质矩阵得到Relative pose方法完全是确定的。下一阶段的问题是如何根据Relative得到Global,方法主要有两个类别,即Factorizitation和分步求解,分解的方法也是一大类其核心在于矩阵*簿褪撬等绾未庸鄄焓葜蟹纸獬雎阒然蛘哒恍缘纫蟮木卣螅淙钡阍谟谏疃刃畔⒌拇砗投杂谙袼乜杉缘囊笊厦妫欢诜植角蠼獾乃悸吩谟谕ü覆交蛘叩值纳阆窕恢眯畔⒒馗矗椒ò酥苯忧蠼猓紫惹蠼庑偾蠼*移的方法,一般转化为线性方程组或者最小二乘问题,当然现在由于L-Infinity的应用,其在这方面也得到应用。最后在得到摄像机位姿和内参数后,恢复了初步的摄像机投影矩阵,下面的问题是利用相机参数恢复三维点,最后进行优化,在优化这里标准的方法现在是Bundle Adjustment,但是其问题在效率如何,对于初始值稳定性怎么样,是不是会出现局部极小,我现在尚没有Bundle Adjustment的评价和衡量,但是貌似其处理速度还是蛮快的。另外的思路是引入L-Infinity进行优化,其好处在于可以找到全局最小,并且是对欧氏距离的好的初始值,问题在于其受噪声影响太大,从而使得噪声数据的消除再次成为话题。从上面的描述看出几何方面的两个关键问题:噪声和优化。优化是一个恒久的话题,因为我们总是期望着最好,最小,最大等等,为了优化,我们首先需要得到目标,即衡量什么,然后建立其数学模型,确定参数和其范围,下面的思路似乎是寻找对应的求解模型,关键的问题在于避免局部极小。现在视觉中的优化应用凸集优化的方法比较多,Convex Optimization,这一优化包括了最小二乘、线性规划、Second Order Cone Programming等。L-Infinity主要利用的SOCP的方法,为了得到最大值的上界,基本的方法是采用二分查找的办法,在每一个区间内判断SOCP问题是否有解,最*也有所改进即对于区间采取梯度下降等等加速策略,相对而言L-Infinity的速度还是问题啊。最*CV方面在优化方面出现了不少文章,主要的方法还是集中在Convex Programming方面,研究怎么样应用范数的特点加速优化过程保证最优。而在匹配的Mismatch和Missing Match方面,我最*也看了一些文章,基本的观点在于利用Multi-View中数据的特点,通过假设检验的思路去除外点,包括匹配三角,匹配的传播,基本的视点不变性特征,利用概率或者贝叶斯的方法,绝对消除外点是不可能的,而且在消除外点的时候成本是很大的,即我们也去除了大量的内点,为进一步的稠密重建造成了问题。在这一方面还是可以有所作为的。另外的问题是退化情形,即大量匹配点共面,图像中存在重复或者相似的物体,这些因素的存在是自动重建的*


?????????? 以上是一些基本的思考,也可以所示对于最*论文阅读情况的一个简要说明。

相关文档

  • 镇廉政风险防控工作会议纪要
  • JAVA+selenium框架(0)---pom文件
  • 《愿有人陪你颠沛流离》读后感
  • 刚结婚一年梦见自己怀孕怎么办
  • 苹果 iOS 13.3/iPadOS 13.3 开发者预览版 Beta 1 推送
  • 麦克风是否正常怎么测试
  • 求三个数中的最大值
  • 怎么把excel表中相同值计数
  • 小学英语情景对话117:打扫公寓
  • 以坚强为话题的优秀作文满分模板
  • 导出Excel过程中遇到的问题java.lang.NoClassDefFoundError: org/apache/xmlbeans/XmlException
  • 樱桃小丸子化妆图片
  • 设计模式:单例模式多种实现及应用场景Java版
  • 科学家3D技术重建4亿年前海洋生物 酷似马桶刷
  • win7 OneNote不能登录一直登录
  • 海参肚子里的筋能吃吗?海参肚子里的筋吃了有什么作用?
  • 用电的安全常识有哪些
  • sublime搜索和替换--多文件搜索替换
  • 小程序即将上线,现在就可以开发啦
  • 杨家将上阵歇后语的答案
  • 宾馆安全温馨的提示语
  • 下雨天的晚上心情朋友圈说说语录下雨天的晚上发什么说说好
  • 2020年山西高考一本提前批征集志愿填报
  • spring调用本类方法@Async注解不生效解决办法
  • 年度上半年人口与计划生育工作总结模板
  • 电力公司“安康杯”个人总结
  • 《易经》与道教的关系
  • 关于成长的名人小故事
  • 为你的应用集成谷歌结算(客户端集成+服务端校验)
  • 怀孕初期有些出血怀孕10月注意事项有哪些?
  • 电脑版