伪装目标检测论文阅读 SAM大模型之参数微调:Conv LoRA

paper:link
code:还没公开

摘要

  任意分割模型(SAM)是图像分割的基本框架。虽然它在典型场景中表现出显著的零镜头泛化,但当应用于医学图像和遥感等专门领域时,其优势就会减弱。针对这一局限性,本文提出了一种简单有效的参数高效微调方法Conv-Lora。通过将超轻量级卷积参数集成到低阶自适应(LORA)中,Conv-LoRa可以在普通VIT编码器中注入与图像相关的感应偏差,进一步强化了SAM的局部先验假设。值得注意的是,Conv-Lora不仅保留了SAM丰富的分割知识,而且恢复了其学习高层图像语义的能力,这一能力受到SAM前景-背景分割预训练的限制。跨多个领域的不同基准测试的全面实验强调了ConvLoRA在使SAM适应现实世界的语义分割任务方面的优势。

1.介绍

1)SAM的图像编码器是一种普通的VIT,众所周知,它缺乏视觉特定的感应偏差,这对密集预测有用。
2)SAM的预训练本质是一个二值掩膜预测任务,在给定一个指示的情况下,它将目标的前景和背景分离,低层掩码预测预训练阻碍了SAM捕获高层图像语义信息的能力,这些能力对于多类语义分割等任务至关重要。
  为了克服上述限制,同时仍然保留SAM在预训练期间获得有价值的分割知识,微调了一部分模型参数,同时冻结了SAM的大部分预先训练的权重,实现了参数高效微调(PEFT:parameter efficient finetuning ),从而提出一个问题:PEFT能否使用与图像相关的局部先验信息来增强SAM编码器,并促进高级语义信息的获取。
  在本文中,我们提出了一种新的PEFT方法,称为Conv-LORA,深入到低阶适应(LORA)(Hu等人,2021)。LORA将可训练的线性投影层引入SAM编码器的每一层变换器层,从而帮助恢复其提取高级语义信息的能力。我们的实验表明,LORA优于广泛采用的视觉提示调整(VPT)(Jia等人,2022),特别是在多类语义切分任务中。在Lora之上,Conv-Lora在其瓶颈结构中集成了轻量级卷积层。卷积可以通过局部空间运算引入与图像相关的局部先验信息(即一个像素与其相邻像素的相关性比与距离较远的像素更强)(Chen等,2022)。此外,考虑到目标尺度的潜在变化,在适当的尺度(S)中注入局部先验是必要的。为此,Conv-Lora从专家混合(MoE)的概念中获得灵感(Shazeer等人,2017年),并纳入了多个并行卷积专家,每个专家专门从事不同的特征规模。由于VIT以固定的比例处理图像特征,通常从原始分辨率向下采样16倍,Conv-Lora的每个专家最初以特定比例恢复图像特征,应用卷积运算,然后将特征恢复到默认比例。与VIT-Adaptor(Chen等人,2022)和Swin Transformer(Liu等人,2021A)等视觉特定转换器相比,Conv-Lora提供了一种隐式方法来实施多尺度局部先验,假设它可以利用默认尺度上的图像特征来重建更高尺度上的特征信息。幸运的是,SAM的监督预训练包括各种尺度的面具,使VIT能够获得超出默认尺度的图像特征知识。
  本着PEFT的精神,我们还去掉了提示编码器,并在掩码解码器中增加了轻量级的MLP,以实现多类预测。这一简单的修改将SAM转换为端到端模型,该模型可以在二进制和多类语义分割应用程序上进行微调。
总体而言,我们的贡献可以概括为:
1.我们提出了一种创新的PEFT技术Conv-Lora。通过加入辅助卷积运算,Conv-LoRa从处理普通VIT限制的角度加强了SAM的局部先验。
2.Conv-Lora使用MOE对动态选择适当的特征尺度以注入视觉特定的感应偏差的过程进行建模。
3.我们的研究表明,SAM的预训练阻碍了其VIT编码器学习高级图像语义信息的能力。然而,LoRA展示了帮助SAM恢复这一关键能力的潜力。
4.我们进行了一项涵盖多个领域的广泛基准,包括自然图像、农业、遥感和医疗保健。在各种下游任务中,Conv-Lora始终表现出优于其他PEFT技术的性能

2.模型结构图

在这里插入图片描述
Conv-LoRA插入了由MoE管理的轻量级卷积运算,额外参数可以忽略不计 ;在我们的方法中,虽然MoE主要用于预训练,但我们将MOE用作下游任务的参数高效调整的一部分。

3.方法

3.1 CONV——LoRA

LoRA:首先,让我们简要地回顾一下LORA(Hu等人,2021年)的设计,它使用编码器-解码器结构来对权重更新施加低阶约束。它冻结预先训练的模型权重,并将小的可训练秩分解矩阵注入变压器体系结构的每一层。具体地,在给定预先训练的权重矩阵的情况下,LoRA在其一侧增加了一对线性编码器 W e W_e We和解码器 W d W_d Wd,即可训练的秩分解矩阵。 W e W_e We W d W_d Wd满足低阶约束 W e ∈ R b × a {W_e} \in {R^{b \times a}} WeRb×a,
W d ∈ R b × r {W_d} \in {R^{b \times r}} WdRb×r r ≤ min ⁡ ( a , b ) r \le \min (a,b) rmin(a,b)
使用LoRA时,前向传播从 h = W 0 x h = {W_0}x h=W0x更改为:
h = W 0 x + W d W e x h={W_0}x+{W_d}{W_e}x h=W0x+WdWex
Conv-LoRA:旨在结合LORA的编码器和解码器组件之间的卷积运算。一方面,卷积可以注入与图像相关的局部先验,解决了VIT的根本局限性。另一方面,低阶约束确保卷积层保持极轻,保持了Conv-Lora的PEFT性质.
  在设计Conv-Lora时,一个关键的考虑因素是确定引入局部先验的特征映射的比例。虽然VIT中的功能地图在比例上是一致的,但对象蒙版通常包含广泛的比例范围。因此,在适当的范围内应用卷积运算是至关重要的。为了应对这一挑战,我们从混合专家(MoE)的概念中获得灵感(Shazeer等人,2017年)。MOE包括多个专家网络和选通模块,该选通模块动态地选择在前向传球期间激活哪个专家(S)(图2)。3)。将这一概念应用于Conv-LoRa,每个专家专门在特定比例的特征地图上卷积,紧凑的门控模块学习根据输入数据动态选择expert。数学上,用Conv-Lora,将等式更改为:
h = W 0 x + W d ( ∑ i n G ( W e x ) i E i ( W e x ) ) h = {W_0}x + {W_d}{(\sum\limits_i^n {G({W_e}x} )_i}{E_i}({W_e}x)) h=W0x+Wd(inG(Wex)iEi(Wex))
式子中 W 0 ∈ R C o u t × C i n {W_0} \in {R^{{C_{out}} \times {C_{in}}}} W0RCout×Cin, W e ∈ R r × C i n {W_e} \in {R^{{r} \times {C_{in}}}} WeRr×Cin, W d ∈ R C o u t × r W_d \in {R^{{C_{out}} \times r}} WdRCout×r, x ∈ R B × C i n × H × W x \in {R^{B \times {C_{in}} \times{H} \times {W}}} xRB×Cin×H×W,B是批量大小, C i n / C o u t C_{in}/C_{out} Cin/Cout为输入/输出通道数,H和W为对应高度和宽度。 E i E_i Ei是所有的n位expert中的第i为expert,G是仅激活top-k(默认为1)值的选通网络。
在每个expert内部,依次安排三个关键操作:重建特定比例尺的特征地图的内插函数、3×3卷积层,以及随后的将特征地图映射回VIT的默认特征比例尺的插补操作。假设expert E i E_i Ei负责规模 S i S_i Si,我们可以将其表示为:
E i ( x ) = I n t e r p o l a t e ( C o n v 3 × 3 ( I n t e r p o l a t e ( x , s i ) , 1 / s i ) E_i(x)=Interpolate({Conv_{3 \times 3}}(Interpolate(x,{s_i}),1/{s_i}) Ei(x)=Interpolate(Conv3×3(Interpolate(x,si),1/si)
例如,如果 s i s_i si等于4,则expert E i E_i Ei最初会将特征映射放大4倍,应用 C o n v 3 × 3 Conv_{3 \times 3} Conv3×3操作,最后将特征映射缩小4倍。

MoE vs.Multi-scale:与MoE不同的是,另一种应对不同规模的方法是采用多规模战略。该方法利用多个分支在不同的尺度上同时注入局部先验,并聚集结果。虽然这种方法看起来更简单,但与MoE相比,它的计算成本更高。MOE的效率源于其选择性地激活稀疏expert的能力,从而将计算开销降至最低。考虑到我们对高效微调的优先考虑,我们支持MoE作为一个有洞察力的选择。

3.2 END-TO-END MULTI-CALSS SEGMENTATION WITH SAM

基于SAM的端到端多类分割
  SAM由三个基本组件组成:图像编码器、提示编码器和掩码解码器。当提供图像和提示时,掩码解码器生成与给定提示相关联的对象的掩码,所述图像和提示可以采取点、框、掩码或文本的形式。虽然这种基于提示的方法使SAM可以灵活地集成到更大的系统中,例如交互式分段或检测和后续分段的组合,但它在使SAM成为实际应用中的端到端模型方面确实存在挑战。为了自动化SAM,我们冻结了提示编码器,因此在对下游任务进行微调时,总是不断地使用提示令牌来屏蔽解码器。此外,原始掩码解码器被设计为预测二进制掩码,根据给定的提示区分前景和背景。为了使SAM适应多类语义分割任务,我们引入了一个简单的分类分支(在图中描绘为红色虚线框。4)在掩码解码器内。这个额外的分支负责预测分类分数。此外,我们对掩码解码器进行了全面的微调,因为它是一个轻量级的模块。
在这里插入图片描述

4.实验(experiments)

在COD任务上的表现:
在这里插入图片描述

5.结论

  参数高效微调(PEFT)是使基础模型适应各种下游任务时的一种流行方法。我们提出了一种新的将SAM应用于下游细分应用的PEFT方法Conv-LORA。Conv-LORA简单、通用,在自然图像、农业、遥感和医疗保健等多个领域取得了令人振奋的结果。此外,我们的研究还揭示了SAM的几个方面:1)虽然大规模监督分割预训练可以从数据的角度提供与图像相关的局部先验知识,但在VIT编码器中加入轻量级卷积运算可以从另一个体系结构的角度进一步促进对局部先验知识的开发;2)前景-背景分割预训练阻止图像编码器学习高层语义信息,这可以通过对编码器中相对较少的参数进行微调来缓解。我们的工作主要集中在为SAM开发通用的PEFT方法,在广泛的基准测试中显示出比现有PEFT方法更好的性能,而不是在专门领域与最先进的(SOTA)模型直接竞争。考虑到使用Conv-Lora微调的SAM可能还不能始终优于特定于域的SOTA模型,我们认为,在图像编码器微调的基础上定制掩码解码器和即时编码器,并将Conv-Lora与其他PEFT方法相结合可能是特定于域的应用的有前途的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/581759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java进阶-JavaStreamAPI的使用

本文全面介绍了 Java Stream API 的概念、功能以及如何在 Java 中有效地使用它进行集合和数据流的处理。通过详细解释和示例,文章展示了 Java Stream API 在简化代码、提高效率以及支持函数式编程方面的优势。文中还比较了 Java Stream API 与其他集合处理库的异同&…

Django之搭配内网穿透

一,安装coplar 二,开启8087的内网穿透 三,setting.py中加入如下配置: ALLOWED_HOSTS [*]CSRF_TRUSTED_ORIGINS ["https://localhost:8087", "http://localhost:8087"]四,启动项目 五&#xff…

比较美观即将跳转html源码

源码介绍 比较美观即将跳转html源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面 源码截图 比较美观的一个跳转界面,修改方法如上&…

MATLAB实现果蝇算法优化BP神经网络预测分类(FOA-BP)

果蝇算法(Fruit Fly Optimization Algorithm, FFOA)是一种启发式优化算法,受果蝇觅食行为的启发。将其应用于优化BP神经网络,主要是为了寻找BP神经网络中的最佳权重和偏置值。以下是一个基本的流程: 初始化&#xff1a…

Ubuntu20.04 [Ros Noetic]版本——在catkin_make编译时出现报错的解决方案

今天在新的笔记本电脑上进行catkin_make的编译过程中遇到了报错,这个报错在之前也遇到过,但是,我却忘了怎么解决。很是头痛! 经过多篇博客的查询,特此解决了这个编译报错的问题,于此特地记录!&…

【bug已解决】发生错误,导致虚拟 CPU 进入关闭状态。如果虚拟机外部发生此错误,则可能已导致物理计算机重新启动......

本bug报错已找到原因,并成功解决。 项目场景: vmware安装ubuntu报错。 如下: 发生错误,导致虚拟 CPU 进入关闭状态。如果虚拟机外部发生此错误,则可能已导致物理计算机重新启动。错误配置虚拟机、客户机操作系统中的错误或 VMware Workstation 中的问题都可以导致关闭状…

kaggle(4) Regression with an Abalone Dataset 鲍鱼数据集的回归

kaggle(4) Regression with an Abalone Dataset 鲍鱼数据集的回归 import pandas as pd import numpy as npimport xgboost import lightgbm import optuna import catboostfrom sklearn.model_selection import train_test_split from sklearn.metrics …

C++之list模拟实现

1、定义 定义一个结点: 在list类中的定义: 2、push_back() 3、迭代器 3.1迭代器的构造和定义 3.2、迭代器中的取值 3.3、迭代器的迭代(前置或前置--) 3.4、迭代器的迭代(后置或后置--) 3.5、迭代器的判断 3.6、在类list的定义 4.begin()和end() 5.con…

Nodejs 第六十九章(杀毒)

杀毒 杀毒(Antivirus)是指一类计算机安全软件,旨在检测、阻止和清除计算机系统中的恶意软件,如病毒、蠕虫、木马、间谍软件和广告软件等。这些恶意软件可能会对计算机系统和用户数据造成损害,包括数据丢失、系统崩溃、…

⑥ - 后端工程师通识指南

📖 该文隶属 程序员:职场关键角色通识宝典 ✍️ 作者:哈哥撩编程(视频号同名) 博客专家全国博客之星第四名超级个体COC上海社区主理人特约讲师谷歌亚马逊演讲嘉宾科技博主极星会首批签约作者 🏆 推荐专栏…

windows下git提交修改文件名大小写提交无效问题

windows系统不区分大小写,以及git提交忽略大小写,git仓库已存在文件A.js,本地修改a.js一般是没有提交记录的,需要手动copy一份出来A.js,再删除A.js文件提交仓库删除后,再提交修改后的a.js文件。 windows决…

岚图汽车与东软睿驰签署战略合作协议

4月26日,东软睿驰与岚图汽车正式签署战略合作协议,双方将结合在各自领域拥有的产业资源、技术研发和资本运作等优势,聚焦智能化产品和应用,建立长期共赢的战略合作伙伴关系,通过不断探索未来新技术、新产业、新业态和新模式,围绕用户需求共同打造极致的智能出行体验。 图为岚图…

【AIGC调研系列】llama3微调具体案例

Llama3的微调可以通过多种方式进行,具体案例包括: 使用XTuner进行微调,尝试让Llama3具有"它是SmartFlowAI打造的人工智能助手"的自我认知。这涉及到准备自我认知训练数据集,并通过脚本生成数据[2][8]。利用Unsloth和Go…

GD32E103C8T6 封装LQFP-48 GigaDevice(兆易创新) 单片机

GD32E103C8T6 是由GigaDevice(兆易创新)公司生产的一款基于ARM Cortex-M4内核的32位MCU(微控制器)。以下是GD32E103C8T6的一些主要功能和参数介绍: 主要功能: 高性能ARM Cortex-M4内核: 采用120MHz的ARM …

求解素数环问题

注:这里我的代码是以第一位为最大数n为首元素不动的 思路: 首先我们分析问题要以较小规模的样例进行分析,例如n3时 第一步:深入搜索 我们先不管后面怎么样,当前的首要目标是先确定第一个元素的值,可知有…

paddlehub的简单应用

1、下载安装 pip install paddlehub -i https://pypi.tuna.tsinghua.edu.cn/simple 报错&#xff1a; Collecting onnx<1.9.0 (from paddle2onnx>0.5.1->paddlehub)Using cached https://pypi.tuna.tsinghua.edu.cn/packages/73/e9/5b953497c0e36df589fc60cc6c6b35…

Java中集合概述(补充ing)

一、集合分类 Java中的集合框架提供了多种类型的集合&#xff0c;主要分为两大类&#xff1a;单列集合&#xff08;只保存单一类型的对象&#xff09;和双列集合&#xff08;保存具有键值对关系的对象&#xff09;。下面对这些集合进行分类介绍&#xff0c;但由于源码分析会涉…

开源相机管理库Aravis例程学习(五)——camera-api

开源相机管理库Aravis例程学习&#xff08;五&#xff09;——camera-api 简介例程代码函数说明arv_camera_get_regionarv_camera_get_pixel_format_as_stringarv_camera_get_pixel_formatARV_PIXEL_FORMAT_BIT_PER_PIXEL 简介 本文针对官方例程中的&#xff1a;03-camera-api…

沉浸式翻译 chrome 插件 Immersive Translate - Translate Website PDF

免费翻译网站&#xff0c;翻译PDF和Epub电子书&#xff0c;双语翻译视频字幕 &#x1f4e3; 网络上口碑爆炸的网站翻译扩展工具【沉浸式翻译】⭐⭐⭐⭐⭐ &#x1f4bb; 功能特点如下&#xff1a; &#x1f4f0; 网站翻译 &#x1f680; 提供双语网站翻译&#xff0c;智能识…

618科技嘉年华!五款极致科技产品,开启智能生活新篇章!

准备好迎接一年一度的618了吗&#xff1f;这不仅仅是一场购物的狂欢&#xff0c;更是一次科技的盛宴&#xff0c;一次智能生活的全新启航。今年&#xff0c;我们将带来五款令人瞩目的极致科技产品&#xff0c;它们将彻底颠覆你对智能生活的认知。从娱乐到工作&#xff0c;这些产…
最新文章