李聪:人工智能机器视觉如何解读遥感大数据

昆明电缆集团有限公司

2018-06-27 18:40:46

6月15日下午,在WGDC2018人工智能遥感解译大会上,商汤科技高级研究员李聪做了专题演讲,以下为演讲实录。



主持人:各位来宾,下午好,感谢大家拨冗莅临WGDC2018商汤科技专场。商汤科技是全球领先的人工智能平台公司,秉持着坚持原创,让AI引领人类进步的理念,与我们共同来探讨人工智能遥感影像解译方案。


地球是我们赖以生存的美丽家园,人类自诞生以来就没有停止过对这颗美丽蓝色星球的探索,从盘古开天到沧海桑田,那些传说中记载着人类文明以来我们对地球的认知,现代文明的发展,遥感技术的进步,让冰冷而陌生的地理物质变得温热而熟悉。进入人工智能时代,我们更加愿意拥抱新技术,用更加自动化的数据处理与分析能力。下面有请商汤科技高级研究员李聪,为大家介绍人工智能机器视觉是如何解读遥感大数据的。


李聪:


谢谢大家,感谢大家的耐心等待。我是商汤科技的算法研究员,主要负责深度学习技术遥感方面的应用,今天由我来为大家分享一些基于深度学习技术在遥感领域中取得的技术成果。


首先,对我们公司进行简要的介绍。我们公司到目前成立还不足四年,但我们在人工智能科研技术里面有了20年的科研积淀,目前员工超过1700名。人工智能方面的博士超过150名,我们公司在今年上半年已经获得了累计超过12亿美元的融资,在人工智能领域目前累计融资全球最大。同时,我们的技术也在各个行业里有了深入的应用,比如金融、智慧城市、智能手机、AR芯片、无人驾驶等方面。


能取得上述的成绩离不开我们公司在以下三个方面的坚实的工作,首先是我们有深度学习平台Parrots,是我们自主研发的,拥有自主知识产权,面对我们现在超大规模的网络、超大数据的学习以及复杂关联应用网络方面有突出的优势。为了加快深度学习模型的训练,算法的迭代优化,我们还有深度学习超算中心。我们深耕多个领域进行AI原创技术的研发与积累,目前希望打造中国的人工智能时代的国家电网。目前我们已经在14个垂直行业里面与700多个国内外知名企业进行了深度学习,并且在市场占有率上居于首位。这是我们的自主原创的深度学习平台Parrots,我们有自主知识产权,不必担心受制于人。我们可分布式的训练必不可少,我们也对底层代码进行深度优化,提升了运算效率,降低能耗。为了应对复杂的需求,我们的平台同时支持复杂关联应用模型的快速便捷的部署跟搭建,具有高度的可伸缩特性。这是我们目前拥有的GPU超算集群,目前拥有超过8000块GPU卡,在多地搭建了10个GPU集群,最大的连接规模超过800块GPU卡。



我们的技术也在计算机视觉里面多项全球的赛事获得了验证,参赛队伍有IT知名企业,还有科研院校。我们的任务包括分割检测、分类识别、跟踪、场景深度估计等多个任务。在6月1号结束的CVPR上,在土地分类的任务中我们也取得了冠军。完成该比赛的只是我们一名大四的实习生,这其中离不开他自身的努力,当然也离不开我们前面提到的软硬件的基础,和我们各项技术的积累。


后面通过两个案例更具体的介绍一下基于深度学习技术在遥感解译方面的应用。我们是以光学遥感影像的解译为主,先介绍两个方向,一个是分割,另一个是检测。分割的主要技术,现在处理的主要是在土地利用类型分类的问题上,具体应用到遥感场景的时候会有这样几个问题,首先遥感场景里面对的待分类的地类有分布广的特性,通常在图像上有大面积的分布,比如说图中的耕地、水体、林地等地类。然后相比起通用场景下的分割,我们遥感场景里的地类缺少结构信息,比如说我们右边的这几个场景,如果说我们想对人体进行分割的时候,我们会知道人会有头部、四肢这样的结构信息,如果我们去进行一个车的识别跟分割的时候,知道车有车轮、车箱、车头这些部件,右图建筑物的分割,我们知道如果来分割一个矩形物体,然后外面有好多的窗户的部件,可能是建筑物。可能在我们遥感场景中就缺少这些必要的结构信息。还有传统的解译方法主要有两类,一个是面向像素,一个是面向对象。但是由于我们遥感场景里面的问题多样性,场景的复杂,如何去设计更好的特征进行特征的选取和融合,以达到更好的解译效果。这是一个非常关键的问题,我们以6月1号结束的比赛里面,土地利用类型分类的具体任务,给大家介绍一下我们的解决思路。


首先我们搭建了一个网络,主要有三部分组成,也分别针对于刚才提到的三个问题进行了充分的剖析和优化。首先第一个是我们建立了Backbone,这个Backbone是满足我们处理大区域图像的诉求,应对了我们前面提到的遥感场景里面的分布网络特性。第二个部分是我们多使用了道路信息,让它作为一个辅助类增加结构信息,以辅助大类之间准确性的判断,后面会有具有的效果。第三个部件是我们设计的深度融合模块,这个模块会使不同层次的信息进行深度融合,同时保证了整个网络梯度信息回传,能提升细节,又能优化模型训练,最后实现更精准的分类效果。


经过这三个模块,我们的模型就能达到很好的分类效果,最终在我们的原始指标上提升20%以上,同时取得第一名的成绩。


为了证明模型的稳定性,还同时将我们设计优化的网络应用到了一个建筑物提取的任务上,我们使用了跟spaceNet challenge建筑物提取的数据集一样的,我们跟之前的指标进行了比较,可以看到总体指标上我们已经取得了大幅度的提升,超过5%。尤其是在这些比较困难的城市上,提升幅度已经超过了10%。如果大家对深度学习在分割任务上比较了解的话,在通用场景下mask-rcnn是一个稳定的模型,我们发现各个城市已经取得了优于mask-rcnn的精度,下面给大家看一下我们的效果。首先我们用前面的网络提出来一个关于建筑物的概率图,然后进行矢量转换,叠加到原始影像上,就出现了右边这个具体的效果。前面的具体的任务主要是介绍一下深度学习技术的成果,后面一个就是目标检测的问题。


目标检测同样有三个自己的特点,首先我们的遥感影像通常数据特别大,1万×1万,甚至更大。现在深度学习的目标检测通常是在一个尺寸比较固定的小图上处理的,比如说500×500的大小,所以在处理大图的时候要把它裁成若干个小图,一下子就会多达几千个,普通网络的处理效率简直就没法忍受了。另一个是遥感场景里的目标,通常尺寸比较小,大部分集中在几个像素到几十个像素之间,如何保证这么小的目标有比较高的召回,不遗漏我们需要检测到的目标是非常核心的问题。另外一个问题,当我们保证关注的目标不被漏检的时候,是不是可能会导致产生特别多的虚警,保证高召回跟高虚警的目标就变成了特别需要关注的问题。


我们以大图像上的飞机检测给大家做个介绍。首先我们整个网络有四个子模块构成,前面介绍的两个是特征提取的小网络跟分类的子网络,这两个网络是为了进行图像处理的提速,就是前面说的要处理几千个小图像,会优化每一次的处理效率。另外一个目标检测的子网络,主要是针对于前面提到的特别小的目标设计的,我们既要保证我们的小目标能够被高效的召回,同时又不引入特别多的虚警。另外一个就是为了加强大家在具体用我们模型时候的用户体验,我们会对模型的虚警进行进一步的优化,这个优化是结合在通用场景里面大家常用的多任务联合训练的思路,将飞机的关键点检测子网络融合到其中,同时这个子网络还有一个优势,如果我们的数据里还有坐标和分辨率的信息,那我们也能够提供准确的飞机的方位信息,辅助我们后面进行更深层次的飞行型号识别的任务。通过总共四个子模块的优化,就实现了在大尺寸的遥感影像上对小目标的高精度的检测。


首先我们介绍一下特征提取小网络。我们对模型的网络结构进行了深度的优化,同时对参数量进行了极大的压缩。这次给大家展示的具体的实践效果,所使用的网络,我们的模型参数仅有39万。大量的网络参数压缩也会显著降低内存消耗,提升整个小图的处理效率,为我们大图的CPU平台的处理提供了可能。


第二,我们设计分类子网络,要对大图下的小图进行处理,后续的流程就是做子网络的很多的任务,比如说关键点检测。有的时候小图上没有飞机,我们没有进行后面的两个操作,所以我们增加了分类的子网络,只判断这个小图上有没有,有的时候才处理,所以可以节省后面两个子网络的时间,节省的时间大概在20%到30%之间,同时我们也不需要单独设计的特征提取,我们后面的三个子网络都是共享前面特征小网络里面的特征。


我们再具体介绍一下目标检测子网络。这里面让我们考虑两个内容,首先是在小目标检测上关于anchor的正对性优化设计。经过我们的优化极大的提升我们对小目标的召回。


下面是另外一个问题,我们有了这个小目标的召回之后,我们怎么能保证我们的小目标召回出来的都是正确的,而不是说把其他的类似于飞机的东西都检测出来了。我们就设计了一个多尺度的特征提取跟融合方案。比如说小飞机,发现旁边还有一个检测清晰度更高的飞机,当前这个目标就很有可能被预测成飞机,是这样的关联。通过这两部分,我们就能既提高小目标的召回,有能有效的抑制它的虚警。


我们想对前面做出来的关于目标的检测做出来的更进一步的虚警,实际的应用中大家会发现在飞机上,其实你特别容易检测出来一些类似于飞机的东西,当成一个正样本,导致你最终的结果有好多的虚警。我们就设计了一个关键点检测的子网络,这对我们一开始获得的初步的飞机检测结果,进行关键点的检测,用几何信息判断是不是真正的飞机。


下面是机场的具体的效果,设计了不同颜色、不同尺寸,甚至有一些高度上的重叠对象。正常情况下我们会拿到一张特别大的影像,也是我们普通的影像,对两万×两万左右的影像,除了飞机场很多情况下都有飞机,只是大家不太关注。通过我们的算法也能很高效的给机场外的小飞机进行高精度的检测。


前面我们通过土地利用类型分类和建筑物的提取,加上最后在目标检测方面的一个飞机检测具体的案例,介绍了我们部分遥感应用上的探索。其实我们现在已经取得了很多的技术成果,到目前为止已经有了关于技术的20多个发明专利,而且其中绝大部分的技术已经被成功的应用到了我们具体的业务场景里,关于这一部分一会儿我们的产品负责人会进行更细致的介绍。我的演讲内容就是这些,再次感谢大家的光临。如果大家对深度学习技术的遥感方面的应用比较感兴趣,也特别期待大家会后进行深层次的交流。特别希望我们商汤科技利用自己的技术和我们的努力,真正能够为遥感技术的应用奉献一份自己的力量,谢谢大家。