未加星标

用CNN分100,000类图像深度学习

字体大小 | |
[商业智能 所属分类 商业智能 | 发布者 店小二03 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

用CNN分100,000类图像深度学习
网络
用CNN分100,000类图像深度学习
工具
用CNN分100,000类图像深度学习
数据分析
用CNN分100,000类图像深度学习
商业智能
用CNN分100,000类图像深度学习
ETL
用CNN分100,000类图像深度学习
自然语言

Motivation

在这篇文章中我们尝试了 用CNN分类113,287类图像(MSCOCO)。


实际上我们将每张训练集中的图像认为成一类。(当然, 如果只用一张图像一类,CNN肯定会过拟合)。同时,我们利用了5句图像描述(文本),加入了训练。所以每一类相当于 有6个样本 (1张图像+5句描述)。

文章想解决的问题是instance-level的retrieval,也就是说 如果你在5000张图的image pool中,要找“一个穿蓝色衣服的金发女郎在打车。” 实际上你只有一个正确答案。不像class-level 或category-level的 要找“女性“可能有很多个正确答案。所以这个问题更细粒度,也更需要detail的视觉和文本特征。



用CNN分100,000类图像深度学习

同时我们又观察到好多之前的工作都直接使用 class-level的 ImageNet pretrained 网络。但这些网络实际上损失了信息(数量/颜色/位置)。以下三张图在imagenet中可能都会使用Dog的标签,而事实上我们可以用自然语言给出更精准的描述。也就是我们这篇论文所要解决的问题(instance-level的图文互搜)。



用CNN分100,000类图像深度学习

Method

1.对于自然语言描述,我们采用了相对不那么常用的CNN 结构,而不是LSTM结构。来并行训练,finetune整个网络。结构如图。结构其实很简单。


用CNN分100,000类图像深度学习

对于TextCNN,我们是用了类似ResNet的block。注意到句子是一维的,在实际使用中,我们用的是 1X2的conv。



用CNN分100,000类图像深度学习

2. Instance loss。我们注意到,最终的目的是让每一个图像都有区分(discriminative)的特征,自然语言描述也是。所以,为什么不尝试把每一张图像看成一类呢。(注意这个假设是无监督的,不需要任何标注。)


这种少样本的分类其实在之前做行人重识别就常用,但行人重识别(1467类,每类9.6张图像,有人为ID的标注。)没有像我们这么极端。


Flickr30k:31,783类 (1图像+5描述), 其中训练图像为 29,783类

MSCOCO:123,287类 (1图像 + ~5描述), 其中训练图像为 113,287类



用CNN分100,000类图像深度学习

注意到 Flickr30k中其实有挺多挺像的狗的图像。不过我们仍旧将他们处理为不同的类,希望也能学到细粒度的差别。(而对于CUHK-PEDES,因为同一个人的描述都差不多。我们用的是同一个人看作一个类,所以每一类训练图片多一些。CUHK-PEDES用了ID annotation,而MSCOCO和Flickr30k我们是没有用的。)


3. 如何结合 文本和图像一起训练?

其实,文本和图像很容易各学各的,来做分类。所以我们需要一个限制,让他们映射到同一个高层语义空间。


我们采用了一个简单的方法:在最后分类fc前,让文本和图像使用一个W,那么在update过程中会用一个软的约束,这就完成了(详见论文 4.2)。 在实验中我们发现光用这个W软约束,结果就很好了。(见论文中StageI的结果)


4.训练收敛么?

收敛的。欢迎大家看代码。就是直接softmax loss,没有trick。

图像分类收敛的快一些。文本慢一些。在Flickr30k上,ImageCNN收敛的快,

TextCNN是重新开始学的,同时是5个训练样本,所以相对慢一些。


用CNN分100,000类图像深度学习

5. instance loss 是无监督的么?

instance loss的假设是无监督的,因为我们没有用到额外的信息 (类别标注等等)。而是用了 “每张图就是一类” 这种信息。


6. 使用其他无监督方法,比如kmeans 先聚类,能不能达到类似instance loss的结果?我们尝试使用预训练ResNet50提取pool5特征,分别聚了3000和10000个类。(聚类很慢,虽然开了多线程,聚10000个类花了1个多小时,当中还怕内存不足,死机。大家请慎重。)


用CNN分100,000类图像深度学习

在MSCOCO采用instance loss的结果更好一些。我们认为聚类其实没有解决,黑狗/灰狗/两条狗都是 狗,可能会忽略图像细节的问题。


7. 比结果的时候比较难。因为大家的网络都不太相同(不公平),甚至train/test划分也不同(很多之前的论文都不注明,直接拿来比)。所以在做表格的时候,我们尽量将所有方法都列了出来。注明不同split。



用CNN分100,000类图像深度学习

尽量VGG-19 和 VGG-19来比, ResNet-152 和ResNet-152比。欢迎大家详见论文。


和我们这篇论文相关的,很多是鲁老师的工作,真的推荐大家去看。

Multimodal convolutional neural networks for matching image and sentence(http://openaccess.thecvf.com/content_iccv_2015/papers/Ma_Multimodal_Convolutional_Neural_ICCV_2015_paper.pdf)

Convolutional Neural Network Architectures for Matching Natural Language Sentences(http://papers.nips.cc/paper/5550-convolutional-neural-network-architectures-for-matching-natural-language-sentences.pdf)


8. 更深的TextCNN一定更好么?

这个问题是Reviewer提出的。

相关论文是 Do Convolutional Networks need to be Deep for Text Classification ?确实,在我们额外的实验中也发现了这一点。在两个较大的数据集上,将文本那一路的Res50提升到Res152并没有显著提升。



用CNN分100,000类图像深度学习

9. 一些trick(在其他任务可能不work)

因为看过bidirectional LSTM一个自然的想法就是 bidirectional CNN,我自己尝试了,发现不work。插曲:当时在ICML上遇到fb CNN翻译的poster,问了,他们说,当然可以用啊,只是他们也没有试之类的。

本文中使用的Position Shift 就是把CNN输入的文本,随机前面空几个位置。类似图像jitter的操作吧。还是有明显提升的。详见论文。

比较靠谱的数据增强 可能是用同义词替换句子中一些词。虽然当时下载了libre office的词库,但是最后还是没有用。最后采用的是word2vec来初始化CNN的第一个conv层。某种程度上也含有了近义词的效果。(相近词,word vector也相近)

可能数据集中每一类的样本比较均衡(基本都是1+5个),也是一个我们效果好的原因。不容易过拟合一些“人多”的类。


Results

TextCNN 有没有学出不同词,不同的重要程度?(文章附录)

我们尝试了从句子中移除一些词,看移除哪些对匹配score影响较大。


用CNN分100,000类图像深度学习

一些图文互搜结果(文章附录)



用CNN分100,000类图像深度学习
用CNN分100,000类图像深度学习

自然语言找行人


用CNN分100,000类图像深度学习

细粒度的结果


用CNN分100,000类图像深度学习

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:418451831

tags: 图像,loss,instance,文本,level,训练,论文,MSCOCO,Flickr30k,描述,自然语言,一类
分页:12
转载请注明
本文标题:用CNN分100,000类图像深度学习
本站链接:http://www.codesec.net/view/572000.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 商业智能 | 评论(0) | 阅读(67)