第五章：大模型的数据

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main

一、大语言模型背后的数据

⼤型语⾔模型是在"原始⽂本"上进⾏训练的。为了实现⾼度的能⼒（如语⾔和世界知识），这些⽂本应涵盖⼴泛的领域、类型、语⾔等。
⽹络是寻找这种⽂本的⾃然场所（但不是唯⼀场所），因此这将是我们主要关注的焦点。
值得注意的是，⼤公司中存储的私有数据集甚⾄⽐公开可⽤的数据更⼤。

尽管⽹络数据丰富，但Bender等⼈在2021年的研究中指出：

⼤规模数据在全球⼈⼝中的代表性仍然不均衡。
⽹络数据过多地代表了来⾃发达国家的年轻⽤户。
GPT-2的训练数据基于Reddit，根据⽪尤互联⽹研究的2016年调查，美国Reddit⽤户中有67%是男性，64%的年龄在18到29岁之间。
维基百科的编者中只有8.8-15%是⼥性。
⽹络上的骚扰可能会让某些⼈群（如跨性别者、神经发育不同的⼈）产⽣排斥感。
过滤"不良词汇"可能进⼀步边缘化某些⼈群（如LGBT+）。

因此，我们的结论是：理解和记录⽤于训练⼤型语⾔模型的数据集的组成是⾄关重要的。

1.1 WebText和OpenWebText数据集

WebText数据集被⽤于训练GPT-2模型。其⽬标是获取既多样化⼜⾼质量的数据集。
尽管OpenAI并没有公开发布WebText数据集，但OpenWebText数据集在理念上复制了WebText的构建⽅法。也就是说，虽然OpenWebText并⾮OpenAI直接发布的WebText的副本，但它遵循了WebText的制作思路和⽅法，⽬的是尽可能地模拟和复现WebText的数据特性和结构。

1.2 Colossal Clean Crawled Corpus（C4）

C4语料库被⽤来训练T5模型。
Dodge等⼈在2021年对C4数据集进⾏了深⼊分析。分析主要涉及以下⼏个⽅⾯：

元数据：来源，话语数据。
包含的数据：由机器或⼈类创作的，社会偏⻅，数据污染。
排除的数据：医疗或健康数据，⼈⼝身份。

1.3 Benchmark的数据污染问题

当我们评估⼤型语⾔模型的能⼒时，我们常常会使⽤⼀些基准数据，例如问题-答案对。然⽽，若基准数据在模型的训练数据中出现过，基准性能就可能会产⽣偏差。⼀般⽽⾔，在机器学习中，保证训练数据和测试数据的分离（我们称之为数据卫⽣）相对容易。但对于⼤型语⾔模型，训练数据和基准数据都源⾃互联⽹，要事先保证它们的完全分离就显得有些困难。

存在两种类型的污染。⼀种是输⼊和输出污染。
数据集也可能引发多种问题。⾸先，存在代表性损害的可能；其次，数据集的选择和过滤也可能导致分配损害。

1.4 GPT-3的数据集

GPT-3的数据集主要源⾃Common Crawl，⽽Common Crawl⼜类似于⼀个参考数据集——WebText。GPT-3下载了41个分⽚的Common Crawl数据（2016-2019年）。通过训练⼀个⼆元分类器来预测WebText与Common Crawl的区别，如果分类器认为⽂档更接近WebText，那么这个⽂档就有更⼤的概率被保留。在处理数据时，GPT-3采⽤了模糊去重的⽅法（检测13-gram重叠，如果在少于10个训练⽂档中出现，则移除窗⼝或⽂档），并从基准数据集中移除了数据。此外，GPT-3也扩⼤了数据来源的多样性（包括WebText2、Books1、Books2以及维基百科）。在训练过程中，Common Crawl被降采样，它在数据集中占82%，但只贡献了60%的数据。
然⽽，GPT-3也暗示了我们除了⽹络爬⾍之外，也许还可以寻找其他更⾼质量的数据来源。EleutherAI（⼀个致⼒于构建开放语⾔模型的⾮营利组织）进⼀步推动了这个想法。他们发布了⼀种语⾔模型的数据集，名为The Pile，其核⼼理念是从较⼩的⾼质量数据源（如学术和专业资源）中获取数据。

1.5 The Pile数据集

The Pile数据集包含了825GB的英⽂⽂本，由22个⾼质量数据集组成。当⽤这个数据集训练GPT-2Pile（1.5B参数）并与⽤GPT-3数据集训练的GPT-3（175B参数）进⾏⽐较时，研究者们发现，ThePile包含了⼤量GPT-3数据集未能很好覆盖的信息。他们还分析了贬损内容、性别/宗教偏⻅等问题，结果与以前的研究⼤致相同。