小样本学习--（1）概论

一、概述

1、Omniglot

2、MiniimageNet

三、孪生网络

四、三元组损失函数

一、概述

小样本学习用于处理训练数据集中样本数量少的情况，一般来说，小样本学习流程是这样的，从一个多种类少量样本的巨大数据集中训练一个Pretrained网络模型（这一步不需要做），之后可以基于预训练模型根据微调、元学习或度量方法进行fine-tune，做到对查询集的一个分类和识别。

小样本学习的LibFewShot库：https://github.com/RL-VIG/LibFewShot

小样本学习与传统神经网络的区别：

假设训练猫狗分类问题，传统神经网络会从大量带标签的猫狗训练集中进行充分训练，得到较好的模型，然后测试集也是猫狗数据集，只不过是训练集中没有的图片，模型将对测试集进行分类。

小样本学习首先在一个较大的较多类别，每个类别较少数据的数据集（即辅助集，不包含猫狗类别）中进行预训练，通过迁移学习对预训练模型进行微调，微调时会利用一个Support set(支持集），支持集包含猫狗的图片和标签，根据支持集的类别共K类和每个类别的图片数量n张，又叫做K-way n-shot小样本问题，通常K取5或10，n取1或5。通过在支持集进行微调，达到少量样本完成对查询集（测试集，猫狗测试集）的分类。

小样本学习，不需要传统神经网络的过高层数，过多的融合来寻找分类的特征从而知道如何分类，而是通过有限的支持集进行相似度匹配，来达到分类的效果。

小样本学习例子：

下图的Query：兔子就是测试集，而辅助集在训练时没有见过兔子类，那么他是如何分类的呢？

通过依赖支持集Support Set对于预训练模型进行微调，来获得水獭与测试图片相似度最高的标签。

另外 K-way n-shot的举例如下：

K-way n-shot与测试集的Accuracy的关系：

（1）支持集类别数越多，测试集Accuracy越低，因为测试图片占测试种类的比例下降了。

（2）支持集图片越多，测试集Accuracy越高，这个很好理解，图片越多学的越好。

二、小样本学习的数据集

1、Omniglot

Omniglot是全语言文字数据集，包含50种语言的字母表，共计1623个类，每个字母由20个不同的人书写，也就是每个字母仅有20张图片，每个图片的像素为105*105。Omniglot数据集分为训练集和测试集，训练集有30个字母表，964个字符，测试集有20个字母表，659个字符，训练集和测试集类别不同，也就是说预训练也是进行的小样本学习，Omniglot数据集一般用作小样本训练。