伪装目标检测模型论文阅读之:Zoom in and out

论文链接:https://arxiv.org/abs/2203.02688
代码;https://github.com/lartpang/zoomnet

1.摘要

最近提出的遮挡对象检测(COD)试图分割视觉上与其周围环境融合的对象,这在现实场景中是非常复杂和困难的。除了与它们的背景具有高度的内在相似性之外,这些对象通常在尺度上是多样的,外观上是模糊的,甚至严重遮挡。为了解决这些问题,我们提出了一种混合尺度三元网络,ZoomNet,模仿人类观察模糊图像时的行为,即放大和缩小。具体来说,我们的ZoomNet采用缩放策略,通过设计的尺度集成单元和分层混合尺度单元来学习区分性混合尺度语义,充分挖掘候选对象和背景环境之间的不可感知线索。此外,考虑到不可区分的纹理所带来的不确定性和模糊性,我们构造了一个简单而有效的正则化约束,即不确定性感知损失,以促进模型在候选区域中准确地产生具有更高置信度的预测。我们提出的高度任务友好的模型在四个公共数据集上始终超过现有的23种最先进的方法。此外,在SOD任务上优于最近的尖端模型的上级性能也验证了我们模型的有效性和通用性。

2.主要贡献

1.在COD任务中,我们提出了一种混合尺度的三元组网络ZoomNet,它通过描述和统一不同“缩放”尺度下的特定尺度的外观特征以及有针对性的优化策略,可以有效地捕获复杂场景中的对象。
2.为了获得被捕获对象的区分性特征表示,我们设计了SIU和HMU进行提取,聚合和加强特定于尺度和微妙的语义表示,以获得准确的COD。
3.我们提出了一种简单而有效的优化增强策略,UAL,该模型在不增加额外参数量的情况下,可以有效地抑制背景的不确定性和干扰
在4个COD数据集上对7种度量标准下的方法进行了比较,并在SOD任务中表现出了很好的泛化能力,与现有的SOD方法相比具有上级性能。

3.模型结构图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.模型组成

HMU迭代式构造,iteration struction in the HMU

共享三元组特征编码器用于提取对应不同输入“缩放”尺度的多级特征,由分别用于特征提取和压缩的E-Net和C-Net组成,在尺度合并层采用SIU对不同尺度的关键线索进行筛选和融合,然后通过自顶向下的方式逐步融合特征。
求助于图像金字塔,具体来说基于单尺度输入定制了一个图像金字塔来识别被遮挡的物体,将尺度分为单尺度和两个辅助尺度,

4.1 三重特征编码器

由特征提取和通道压缩网络组成,E-net和C-net,E-net由常用的Resnet50组成,删除了layer4之后的结构,C-net进行级联,进一步优化计算,找到更紧凑的特征。

4.2 缩放合并图层

对于f_i1.5,使用“max-pooling+average-pooling”的混合结构下采样,有助于在高分辨率特征中保留对被封装对象的有效和多样的响应,对于f_i0.5,直接通过双线性插值进行上采样,然后这些特征被馈送到注意力生成器中,通过一系列卷积层计算三通道特征图,在softmax激活层之后,可以获得每个尺度对应的注意力图A^k (k∈{0.5,1.0,1.5}),并将其用作最终积分的各个权重。
Attention generator :
在这里插入图片描述
将不同大小的图片信息concat,然后经过attention generator,是一系列的conv,用sequential函数,是一系列的,所以是串联的关系。对attn结果进行softmax操作并按通道数切成三部分,最后根据各个尺度的权重将三个尺度的特征加权求和得到lms。
这些涉及旨在选择性地聚合特定于尺度的信息,以探索不同尺度的微妙但是关键的语义线索,从而提高特征表示。

4.3 分层混合尺度解码器

4.3.1 分组迭代

在这里插入图片描述
〖g’〗_j1用于与下一组进行信息交换,〖g’〗_j2与〖g’〗_j3 用于信道调制,这种迭代混合策略努力从不同通道学习关键线索并获得强大的特征表示。从这个角度来看,HMU中的迭代结构可以等效于核金字塔结构。

4.3.2 通道式调制

〖〖〖{g〗'〗_j2}〗(j=1)^G,
被级联并通过一个小卷积网络转化为特征调制向量α,该特征调制向量α对另一个级联特征〖〖〖{g〗'〗_j3}〗
(j=1)^G进行加权,然后加权特征由卷积层处理:
在这里插入图片描述

4.4. Loss functions

损失函数:

在这里插入图片描述

引入置信感知损失
调整后发现λ发现余弦策略可以获得更好的性能

收拾回家行李,很着急,挤出时间日更,公式格式问题,以及复现细节后面会来填坑!


http://www.niftyadmin.cn/n/5327935.html

相关文章

HTTPS环境下使用WebSocket问题解决

1、问题 使用WebSocket在本地是没有问题的,能够和前端进行正常交互,但是将项目部署到服务器上,发现和前端建立不了WebSocket的连接,打开浏览器控制台报错:This request has been blocked; this endpoint must be avail…

《绝地求生》职业选手画面设置推荐 绝地求生画面怎么设置最好

《绝地求生》画面怎么设置最好是很多玩家心中的疑问,如果性能不是问题无疑高特效显示效果更好,但并不是所有画面参数都利于战斗,今天闲游盒带来分享的《绝地求生》职业选手画面设置推荐,赶紧来看看吧。 当前PUBG的图像设置的重要性…

分布式光伏运维平台在提高光伏电站发电效率解决方案

摘要:伴随着能源危机和环境恶化问题的日益加重,科技工作者进一步加大对新能源的开发和利用。太阳能光伏发电作为新型清洁能源的主力军,在实际生产生活中得到了广泛的应用。然而,光伏发电效率偏低,成为制约光伏发电发展…

Java代码审计FastJson反序列化利用链跟踪动态调试autoType绕过

目录 0x00 前言 0x01 基础参考 JNDI注入实例 使用type加入User类解析 FastJson历史漏洞简介 0x02 FastJson 1.2.24 利用链分析 调试过程 构造Poc思路 CC链关键流程 0x03 FastJson 1.2.25-1.2.47 利用链分析 1、开启autoTypeSupport:1.2.25-1.2.41 调试过…

Verilog语法——5.测试文件

参考资料 【明德扬_verilog零基础入门语法HDL仿真快速掌握-手把手教你写FPGA/ASIC代码设计流程中的应用】 5. 测试文件 5.1 认识测试文件(testbench) testbench是一种验证的手段。首先,任何设计都是会有输入输出的。 但是在软环境中没有激励…

Linux grep命令教程:强大的文本搜索工具(附案例详解和注意事项)

Linux grep命令介绍 grep (Global Regular Expression Print)命令用来在文件中查找包含或者不包含某个字符串的行,它是强大的文本搜索工具,并可以使用正则表达式进行搜索。当你需要在文件或者多个文件中搜寻特定信息时,grep就显得无比重要啦…

java连接sql server 2008示例

本文将以jtds作为驱动包来连接,简单方便! 使用官方的驱动包可能会遇到如下报错:jdbc SQLServer Error: “The server selected protocol version TLS10 详见:https://blog.csdn.net/lxyoucan/article/details/125681677 这让部署…

立白科技集团:研发安全推动数字化蜕变,日化业务再上新高度

立白科技集团成立于1994年,是我国日化行业的领军企业,致力于成为一家“品牌引领、数字经营、富有创新、富有活力”的智慧服务型企业。从2018年开始,立白科技集团加速数字化转型,打造数据和业务中台,并建立toB和toC平台…