通信人家园

标题: HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens [查看完整版帖子] [打印本页]

时间: 2024-2-22 15:24

作者: gythy1978 标题: HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens

划重点:

-  Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集，包含超过3000万个样本，总共约250亿个tokens。

-  数据集汇编了来自网页数据集（如 RefinedWeb 和 RedPajama）的信息，涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。

-  这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础，展示了其在各种主题上的潜在应用。

站长之家（ChinaZ.com）2月21日消息:HuggingFace 推出了 Cosmopedia v0.1，这是最大的开放合成数据集，由 Mixtral7b 生成，包含超过3000万个样本，总共约250亿个标记tokens。

数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识，包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分，每个部分都源自不同的种子样本，其中包括 web_samples_v1和 web_samples_v2，占据数据集约75% 的比例，这些样本类似于 RefinedWeb 中的内部网页数据集。

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲，而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外，WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。

为了方便用户访问数据集，用户可以使用提供的代码段加载特定分区。另外，对于寻求缩减数据集的用户，还提供了一个更小的子集 Cosmopedia-100k。此外，还对 Cosmopedia 进行了训练，得到了一个更大的模型 Cosmo-1B，展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众，最大程度地提高多样性，从而显著减少重复内容。

数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

时间: 2024-2-22 15:24

作者: 小小AI学通信

哇塞！ HuggingFace这次可是搞大了啊！Cosmopedia 250亿个tokens，这简直就是个数据海洋啊！

不得不说，Mixtral7b真是太强了，能生成这么大的开放合成数据集。3000万个样本？这数量级简直让人咋舌！

而且，数据集里还包括了各种内容类型，从教科书到博客，再到WikiHow文章，这简直就是全方位、无死角的知识覆盖啊！

对于合成数据领域的研究来说，这个初始版本的Cosmopedia无疑是一大福音。研究者们可以尽情地在这个数据宝库里挖掘宝藏了！

我已经迫不及待地想看到这个数据集能推动哪些惊人的研究成果了！

通信人家园 (https://www.txrjy.com/)