首个基于Transformer的分割检测+视觉大模型视频课程（附源码+课件）-面包板社区

众所周知，视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类，我们可以很轻松地借助各种模态，包括但不仅限于视觉、语言、声音等来理解和感知这个世界。现如今，随着 Transformer 等关键技术的提出，以往看似独立的各个方向也逐渐紧密地联结到一起，组成了“多模态”的概念。

多功能
通过引入灵活的提示引擎，包括点、框、涂鸦 (scribbles)、掩模、文本和另一幅图像的相关区域，实现多功能性；
可组合
通过学习联合视觉-语义空间，为视觉和文本提示组合实时查询，实现组合性，如图1所示；
可交互
通过结合可学习的记忆提示进行交互，实现通过掩模引导的交叉注意力保留对话历史信息；
语义感知
通过使用文本编码器对文本查询和掩模标签进行编码，实现面向开放词汇分割的语义感知。

超大规模视觉通用感知模型由超大规模图像、文本主干网络以及多任务兼容解码网络组成，它基于海量的图像和文本数据构成的大规模数据集进行预训练，用于处理多个不同的图像、图像-文本任务。此外，借助知识迁移技术能够实现业务侧小模型部署。

超大规模视觉通用感知模型面临的挑战：
（1）网络参数量庞大，通常超十亿参数，训练稳定性、收敛性、过拟合等问题相较于小网络挑战大很多。
（2）原始数据集包含数十亿异质低质量图片与海量文本，多步训练以利用异质的多模态多任务数据，流程复杂，存在灾难性遗忘，难以定位精度等问题。
（3）实验成本高，通常需要上千块GPU并行训练数周，需要研究者有敏锐的分析能力和扎实的知识基础。
（4）工程挑战多，海量数据的吞吐，大型GPU集群上的并行算法，超大参数量模型的内存管理。

提示工程
大多数视觉数据集由图像和相应文本标签组成，为了利用视觉语言模型处理视觉数据集，一些工作已经利用了基于模版的提示工程，
text_descriptions = [f"This is a photo of a {label}" for label in cifar100.classes]
text_tokens = clip.tokenize(text_descriptions).cuda()

除了此类大型视觉语言基础模型外，一些研究工作也致力于开发可以通过视觉输入提示的大型基础模型。例如，最近 META 推出的 SAM 能够执行与类别无关的分割，给定图像和视觉提示（如框、点或蒙版），指定要在图像中分割的内容。这样的模型可以轻松适应特定的下游任务，如医学图像分割、视频对象分割、机器人技术和遥感等

从模型训练、模型分发、模型商业化，美图体系化地同创作者和开发者共建模型生态：

（1）模型训练：提供二次训练能力，并持续不断地为创作者提供服务，包括培训、社区和模型创作大赛。

（2）模型分发：创作者和开发者共建的模型可以在美图的产品内进行分发，在分发过程中持续优化模型。

（3）模型商业化：行业客户可通过 MiracleVision 的 API 和 SDK 进行商业使用，创作者和开发者通过商业合作获得经济收益。
通用视觉-语言学习的基础模型
UNITER：结合了生成（例如掩码语言建模和掩码区域建模）和对比（例如图像文本匹配和单词区域对齐）目标的方法，适用于异构的视觉-语言任务。
Pixel2Seqv2：将四个核心视觉任务统一为像素到序列的接口，使用编码器-解码器架构进行训练。
Vision-Language：使用像 BART 或 T5 等预训练的编码器-解码器语言模型来学习不同的计算机视觉任务。
模型整体结构上，抛弃了CNN，将 BERT 原版的 Transformer 开箱即用地迁移到分类任务上面，在使用大规模训练集的进行训练时，取得了极好的效果。
同时，在大规模数据集上预训练好的模型，在迁移到中等数据集或小数据集的分类任务上以后，也能取得比CNN更优的性能。
模型整体结构如下图所示，完全使用原始 BERT 的 Transformer 结构，主要是对图片转换成类似 token 的处理，原文引入了一个 patch 的概念，首先把图像划分为一个个的 patch，然后将 patch 映射成一个 embedding，即图中的 linear projection 层，将输入转换为类似 BERT 的输入结构，然后加上 position embedding，这里的 position 是1D的，最后加上一个learnable classification token 放在序列的前面，classification由 MLP 完成。

这里我们用 RAM 提取了图像的语义标签，再通过将标签输入到 Grounding-DINO 中进行开放世界检测，最后再通过将检测作为 SAM 的提示分割一切。目前视觉基础大模型可以粗略的归为三类：
textually prompted models, e.g., contrastive, generative, hybrid, and conversational;
visually prompted models, e.g., SAM, SegGPT;
heterogeneous modalities-based models, e.g., ImageBind, Valley.

CoCa 通过将所有标签简单地视为文本，对 web-scale alt-text 和 annotated images 进行了从头开始端到端的预训练，无缝地统一了表示学习的自然语言监督。因此，CoCa 在广泛的下游任务上实现了最先进的性能，零样本传输或最小的任务特定适应，跨越视觉识别（ImageNet，Kinetics-400/600/700，Moments-in-Time )、跨模式检索（MSCOCO、Flickr30K、MSR-VTT）、多模式理解（VQA、SNLI-VE、NLVR2）和图像字幕（MSCOCO、NoCaps）。在 ImageNet 分类中，CoCa 获得了 86.3% 的 zero-shot top-1 准确率， frozen encoder and finetune classifier 是 90.6%，finetune encoder 可以到 91.0%。

截止目前国内外已经发布了许多包括 NLP, CV 和多模态在内的大规模模型，但是这些模型在应用落地上还是有待进一步探究的，目前应用落地较好的有华为的盘古，在电网和金融圈都有应用；智源的悟道系列在诗词图文上都有广泛应用，可以帮助学生看图写作，根据文字生成插图等；百度的文心也发布了在金融方面的应用。但截止目前为止大模型在实际中的应用还不是很理想，大模型发展的初衷是使用一个预训练好的大模型代替一堆小作坊似的根据不同任务训练的小模型，通过模型蒸馏知识迁移等技术在小模型上使用少量数据集达到超过原来小模型性能的目标。CV 大模型在应用上的一个难点是与实际应用相结合，目前社会中用的较多的视觉相关的深度学习模型主要包括物体检测，人脸识别以及缺陷检测（部分）相比 NLP 模型在实际中的使用少很多，因此将 CV 模型与实际生产相结合发现更多的应用场景很关键。另外一个 CV 大模型应用的难点就是如何快速高效的使用蒸馏和知识迁移技术提升下游任务的性能，这两点难题的解决在 CV 大模型的实际应用中都刻不容缓。

总结起来，将大模型应用于更高分辨率的下游视觉任务具有以下好处：提高感知能力、改善定位精度、提升语义理解、改善细节保留和边缘清晰度、增加鲁棒性和泛化能力，以及推动研究进展。这些好处使得大模型在处理高分辨率图像时能够获得更准确、更细致和更真实的结果。随着深度学习和计算资源的不断发展，我们可以期待更先进的大模型和相关技术的出现，进一步推动计算机视觉在高分辨率图像任务中的应用和突破

最新资讯