ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

大标 2022年3月16日21:32:33
评论
19

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

2022-03-16 21:02:21

Paperhttp://proceedings.mlr.press/v139/jia21b/jia21b.pdf  

 

1. Background and Motivation

随着深度学习逐步进入深水区,基于多模态大模型的预训练技术开始逐渐吸引众多研究者的关注。本文提到现有方法所得到的大型数据集,规模还不足,因此尝试利用 CC3M 数据集的收集方式,得到海量的带有噪声的 image-text pair 数据。但是不像 CC3M 那样采用严格的筛选方式得到较为干净的数据,作者仅采用简单的过滤方式,得到了比 CC3M 大两个数量级的数据集。作者的实验表明,在这种带有严重噪声的数据上得到的模型,也可以在众多任务上取得不错的效果。

 

为了训练该模型,作者利用一个目标函数在一个共享的隐层映射空间来对齐视觉和语言表示,使用的是一个简单地 dual-encoder 结构。类似的目标可以用于学习视觉-语义映射(visual-semantic embedding, VSE)。作者将其所得到的模型,定义为  ALIGN:A Large-scale ImaGe and Noisy-text embedding。图像和文本编码器是通过一个对比损失来建模的,通过拉近匹配样本的距离,而推远非匹配样本的距离。这也是自监督和监督表示学习常用的损失函数。这种对齐的图像和文本表示可以自然的适合跨模态匹配/检索任务,并在对应的数据集上均得到了领先的精度。

 

 

2. A large-scale noisy image-text dataset

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==

 

  • 我的微信
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
大标
  • 本文由 发表于 2022年3月16日21:32:33
  • 转载请务必保留本文链接:https://www.tanhuibiao.com/script/qita/5215.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: