当前位置 首页> 科易专栏> > 正文

如何在超大分辨率的图片中检测目标?

图片
CV研习社    2021-04-23    704

  文章导读

  本文通过一篇YOLT的文章引出超大分辨率的遇到目标检测任务该如何处理?此类问题一般出现在遥感领域和医疗影像中居多,我们先来分析超大图像的目标检测存在哪些问题,然后学习一下YOLT是如何解决这些问题的,最后结合现有技术探讨目前的可行性方案。

  1

  当超大分辨率图像邂逅目标检测任务

  曾经有小伙伴问过我针对超大分辨率的图像如何做目标检测任务?

  我们先思考一下超大分辨率数据在哪些场景中会出现,比如卫星地图做建筑物、楼宇的检测:

图片.png  在医疗影像中做病灶体的检测:

图片.png  在无人机航拍图中做船舶、车辆、房屋等检测:

图片.png  是否可以沿用通用框架做该类的目标检测呢?

  输入如此大分辨率的到网络中,最直接的问题就是机器的显存爆掉,无法进行训练任务。

  如果你真的有一个非常牛逼的集群直接训练大尺寸图像,最后的预测结果恐怕也不尽如人意,原因出在大尺寸图像中的目标往往只占5-10个像素点,检测网络一旦经过多次下采样后,这些小目标的特征很难被提取到。

  卫星地图等数据非常稀有珍贵,不像无人驾驶的开源数据有几十万几百万张的量级,如何高效的利用高质量的训练也是关键所在。

  所以直接硬上通用模型检测出来的效果可能是这样的,要么伴随着的resize,目标被缩放没了;要么基于N×N网格的预测造成密集连续目标的漏检:

图片.png


  此类任务的难点或者优化方向在哪里?

  它的核心在于四个方向:

  如何处理高分辨的输入

  如何提高密集小目标检测

  如何解决类别不平衡问题

  如何利用少量的训练数据

  下面我们通过一篇名为You Only Look Twice的文章来分析上述几个问题,名称有点蹭热度的嫌疑哦,不过谁让YOLO系列那么火,大家都喜欢在它的框架上改改发文章呢!

  2

  You Only Look Twice

  《Rapid Multi-Scale Object Detection In Satellite Imagery》这篇文章描述了大尺寸图像目标检测的常规方法,总的来说就是对超大分辨率的图像进行滑窗裁剪成多个子图,然后对每一个子图进行目标检测,最后将所有子图的结果拼接后进行NMS过滤。

  数据端

  对超大分辨率进行滑窗裁剪,如下图所示,一个16000×16000像素的,采用416×416像素的滑窗,最后生成约1500个子图。

  文章指出在滑窗裁剪的时候必须有15%的重叠区域,原因是如果一个目标刚好处于窗口边缘被切分成2块,本身目标所占像素就少又被截断会造成更加难以检测。但是重复部分会带来同一个目标出现多个检测框的问题,目前通过将所有子图的检测结果合并起来采用NMS处理进行过滤。

  在卫星、遥感、航拍等中,目标物体往往存在方向信息,如何提高目标检测的旋转不变性呢?在YOLT中通过数据增广的方式旋转生成更多形状的物体从而缓解问题。但是小编认为该方法治标不治本,输出结果仍然是规则的矩形框,一旦遇到长条形物体,比如轮船。预测的矩形框会引入很多冗余区域。可以尝试在损失函数中增加旋转角进行学习。

  网络端

  基于YOLOv2的结构做了一些改进,在YOLO系列或者很多检测网络都进行了32倍的下采样,但是在遥感地图等超大分辨率中,目标物体所占像素本身就很少,经过32倍下采样后,基本无法有效检测。所以YOLT减少了下采样的比例收缩到16倍并增加网络的层数提供特征提取能力。

  文章借助YOLOv2中的PassThrough层,融合深浅特征图的特征目的是提升对小目标的检测效果。当然这一操作完全可以考虑由PAN替代,在FPN上采样融合的特征金字塔之后,又增加了一个下采样融合的特征金字塔。

  本文并没有提到类别不平衡问题,但是任何目标检测任务其实都存在前后背景的不平衡,一般会从三种方法进行考虑,其一是做数据的上采样和下采样来平衡不同类别之间的数据量;其二是采用某些数据增广的手段来增多前景目标在一张图像中的占比;其三是通过设计损失函数通过权重控制不同类别的优化力度。

  3

  如何处理高分辨的输入图像?

  较常见的方式就是像上述文章提到的对一张超大分辨率的切割成多个子图,但是在这一过程中存在几个问题,比如:

  目标位于切割边缘怎么办?

  切割的大小如何设置?

  目标切割的问题在上面已经提过,可以用重叠切割的方法解决目标被截断的问题。

  假设数据集的尺寸不同的前提下,我们可以从结果端反向思考切割尺寸的问题,一般会设置一个固定的子图尺寸比如416×416,但是原图可能无法刚好切割成整数个子图,所以对最边缘的子图可以采用letterbox的方式缩放到416的尺寸,相比直接resize能够保留物体特征。

  4

  如何提高密集小目标检测?

  在目标检测领域中,小目标检测一直都是其中一个难点。针对该问题,近些年也提出了不少优化的方式:

  图像金字塔进行多尺度训练。将原始图像生成多个不同分辨率的图像金字塔,再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标。不过此方法需要对图像做多次的特征提取,速度太慢。该方法也有改进版本,如SNIP网络只训练合适尺寸的目标,当真值的尺寸和Anchor接近时才训练检测器,过大过小的均丢弃。

  特征金字塔融合浅层和深层信息,如FPN和PAN等。通过各层融合的方式从浅层网络中学习更多的细节特征,从深层网络中学习更多的语义特征。

  设计与小目标尺寸匹配的Anchor。不同任务的检测目标尺寸均有差异,可以根据先验知识,采用手工或者聚类的方式离线得到一定个数的Anchor。

  采用空洞卷积减少下采样次数,其目的是考虑下采样会丢失的部分信息,而空洞卷积能够在不增加参数量的同时具有更大的感受野,提供降低采样次数的一种思路。

我要收藏
本文为专栏作者授权科易网发表,版权归原作者所有。文章系作者个人观点,不代表科易网立场,转载请联系原作者。如有任何疑问,请联系ky@1633.com。

这款类脑智能芯片,高效能、高容错、高实时,支持时间序列处理,近乎无损量化部署并已成功应用。你还在等什么?

相关推荐
新型环保清淤设备
随着社会和科技的快速发展,国家对环保的要求也逐渐升高,新《环保法》、《水污染防治法》等法律法规的贯彻实施,对环境污染的打击力度越来越大,人们对环境的需求也日渐增长,现用的设备已经没有办法满足需求,所以新型环保清淤设备孕育而生。 针对江河、湖海、城市管道里的淤泥,进行处理,使其能达到绿色化、环保化、无害化、减量化与资源化;通过进行生物除臭,物理调节,达到现场基本无味。 产品核心竞争力: (1)实用性强:针对江河、湖海、城市管道里的淤泥,进行处理,使其能达到绿色化、环保化、无害化、减量化与资源化;通过进行生物除臭,物理调节,达到现场基本无味。 (2)应用范围广:能对化粪池污水清理、养殖场污水清理、石材厂污水清理、集水井污水清理、生活污水处理厂含泥污水清理、垃圾楼渗透液处理、内河和公园湖泊黑臭水处理、突发水污染事故应急处理。 (3)变废为宝:产出物可以用作制砖原料、高肥效的土地利用原料(例如:农用、绿化、草地、土壤改良、土壤修复、矿山修复)。 (4)效率高:能进行连续不间歇处理,效率大大提升;自带发电机,能在野外以及无电区域进行清淤处理;具有特殊的除渣功能能对石子、砖头、塑料袋、金属等进行分离,实现初级脱水,使污水得到净化。 (5)运行成本低:可以实现少人化生产,综合成本更低,外加效益更高。 (6)绿色环保:通过对江河、湖海、城市管道进行清淤以及废料(泥与沙)二次利用,实现资源循环利用,从污水源头治理,减少二次污染。
领域:生态环境建设与保护技术
基于边缘人工智能技术的智能云联网平台
基于边缘人工智能技术的智能云联网平台是基于5G通信,人工智能,边缘计算等技术,面向智慧城市,工业制造,能源电力等领域构建的高清视频AI应用能力平台,平台支持大容量,高并发,低延时的视频数据的接入,分析,存储、检索和转发,平台采用微服务分布式架构,可以实现应用与算法,软件和硬件双解耦。为行业用户提供融合感知,云边协同,统一管理的全栈式视频智能分析服务,加速行业的数字化转型。
领域:物联网设备、部件及组网技术
自动化解决方案
公司业务涵盖军工领域、汽车制造、工程机械、石油电力、机床管理、压力容器、五金卫浴、轨道交通等行业,为用户提供最佳的自动化解决方案,为用户提供最佳的机床自动生产系统,根据用户产品的工艺特点协助用户选择生产设备,帮助用户规划所需的生产布局及配套的自动化物流,为机床在生产过程中实现自动化上下料、衔接各设备之间的物料自动化周转、装配及定位等作业。实现工厂由自动化-智能化-无人化生产的转变。主要涉及各种数控加工设备、锻压机、冲床、折弯机、浇注机等的自动化智能解决方案。
领域:工业生产过程综合自动化控制系统技术
国际流体动力零部件系统化服务商
公司专注于流体动力零部件研发和装备制造,是集流体力学计算与仿真、流体动力零部件后处理和检测于一体的系统化解决方案服务商和定制化装备制造商。目标产品包括:航发燃油喷嘴、叶冷却流道气膜孔及外表面、冷端转子;航空航天液压动力控制壳体、泵体、阀体和作动器;航空航天发动机复杂油路和冷却流道;核/能源微型反应器、传感器及热交换器;机加件相交孔自动化去毛刺设备等。主营业务围绕技术项目联合攻关和成果布局,包括微细异形大长径比内流道光整加工及深度清洁、流体动力特性测试平台开发、高压液压推力装置定制化开发。
领域:高端装备再制造技术
高智能化双臂机器人
公司致力于研发高智能集群机器人系统,机器人具有 “ 手 、 足 、 眼 、 脑 ” ,基于高速动态移动视觉定位关键技术;机械臂可自主更换电池,视觉精准识别电池的位置,全流程实现无人化智能作业:1.装载外卖;2.更换电池;3.取出外卖。
领域:机器人
建筑及机电声学认知检测及智能声学产品系统研发及产业化
项目利用振动及声学传播的特性,依据专业声学测试分析方法,结合建筑机电、通风设备的特有声音频率,快速准确实现各种设备噪声的检测与分类,实现精准的产品研发配套,有效解决机电设备环境噪声的干扰,实现人居环境尤其是商业酒店、综合体及公共场所的声品质提升,给城市、商业建筑、酒店及公共场所的通风、制冷系统装上一套“无声的装备”。 项目优势: 1、市场前景广:振动声学市场巨大,重点文旅产业的基础设施-声学产品(防火隔声门、通风隔声消声百叶窗、浮筑地台等)及技术配套; 2、技术水平领先:引进国外IAC先进技术并消化吸收,国际品牌、外资企业资深技术团队及管理团队,技术及产品体系、资源体系完善; 3、行业布局深入:已经建立起与上游客户稳定的业务关系,与科研院所进行产研学一体化合作,与行业内北京、上海、深圳资深外资机电及声学顾问、设计院已经建立起稳定的业务对接,合作共赢; 4、团队项目业绩突出:参与一些国家重大项目建设,团队经验非常丰富。
领域:网络应用技术
超声靶向造影的用途
超声靶向造影的用途
超声靶向造影是一种医学检查方法,其通过注射一种含有组织特异性靶标分子的超声造影剂,使造影剂聚集在靶器官或组织处,从而增强声学信号,实现定性和定量分析活体组织细胞、分子水平的生理及病理变化过程或局部靶向治疗的目的。
关键词:超声造影,卵巢癌,拟态
聚乳酸(PLA)产业研究动态
聚乳酸(PLA)产业研究动态
以聚乳酸(PLA)、竹粉为主要原料,通过双螺杆挤出工艺制备竹粉—聚乳酸(PLA)复合材料,研究了不同目数的竹粉及马兰酸酐接枝前后竹粉对竹粉—聚乳酸(PLA)复合材料的物理力学性能及相容性的影响。
关键词:双螺杆挤出,PLA,工艺制备,竹粉
氨法脱硫硫技术专家推荐
氨法脱硫硫技术专家推荐
氨法脱硫是一种高效的湿法脱硫方式,它采用氨作为脱硫剂,通过气液相反应来实现对烟气中二氧化硫的净化。具体原理是将液氨与水混合配制成为一定浓度的氨水,然后将氨水引入脱硫塔中,与锅炉烟气中的二氧化硫发生反应,生成亚硫酸铵。再通过氧化风机不断注入空气,将亚硫酸铵氧化成硫酸铵,从而实现对烟气中二氧化硫的净化。
关键词:离子对,复合电极,氨法脱硫
弯拉弹性模量专利申请
弯拉弹性模量专利申请
通过对几种贫混凝土:碾压贫混凝土、振捣式贫混凝土、掺粉煤灰贫混凝土的弯拉强度与弯拉弹性模量的试验,研究分析了贫混凝土基层材料弯拉弹性模量的特性。试验采用小梁试件进行三分点加荷的方式,测定3kN至50%极限荷载处的割线模量,用跨中挠度公式反算求得。
关键词:混凝土基层,弹性模量,掺粉煤灰
找乳酸盐类/血液技术开发服务商
找乳酸盐类/血液技术开发服务商
乳酸盐在血液中扮演着重要的角色。首先,乳酸盐在运动过程中可能影响局部和中央的血流量。当运动开始时,乳酸盐释放到血液循环中,能够促进血管舒张,提高血液含氧量,确保氧气能够有效地输送到活跃的肌肉中,以满足运动状态下组织的各种需求。
关键词:动物血,血乳酸,乳酸
脑源性神经营养因子(BDNF)产学研合作资源
脑源性神经营养因子(BDNF)产学研合作资源
脑源性神经营养因子(brain-derived neurotrophic factor,BDNF)是1982年Barde等首先在猪脑中发现的一种具有神经营养作用的蛋白质。这是一种在大脑内合成的蛋白质,对神经元的存活、分化以及正常功能的维持起到重要作用。它广泛分布于中枢神经系统,特别是在海马和皮质的含量最高。
关键词:BDNF,阿尔茨海默,脑源性神经营养因子
敏感蛋白产业研究动态
敏感蛋白产业研究动态
测定30个不同麦芽样品的总氮、可溶性氮、库值、总酚含量以及对应麦汁敏感蛋白及敏感多酚含量,并对结果进行相关性分析发现,麦汁敏感蛋白含量与麦芽可溶性氮呈显著正相关(r=0.686,p0.01),麦汁敏感多酚含量与麦芽总酚呈显著正相关(r=0.646,p0.01),表明麦芽可溶性氮与总酚指标可初步用于评价麦汁中敏感蛋白与敏感多酚含量;
关键词:麦芽,总酚含量,多酚,总氮
桥博技术哪里有?
桥博技术哪里有?
在铁路桥梁建设中,单箱单室预应力混凝土连续箱梁较为普遍。在进行设计计算时,一般是把三维空间桥梁结构进行简化,在纵向和横向分别对桥梁进行平面杆系计算。
关键词:三维空间,预应力混凝土,铁路桥梁,连续箱梁
服务精选
服务案例
官方社群
标签