首页 > 科技 > 智能 收录 250 亿个 Token,Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

收录 250 亿个 Token,Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

IT之家 2 月 23 日消息,Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。IT之家注意到,该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。据悉,Cosmopedia 数据集除了收录…

IT之家 2 月 23 日消息,Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。

IT之家注意到,该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

据悉,Cosmopedia 数据集除了收录上述文本文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k,供用户轻松管理和使用。

Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展,感兴趣的小伙伴可以点此访问项目地址。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

投诉水文 我要纠错
本文来自网络,不代表头条在线-头条新闻网立场。
上一篇亚马逊警告员工:工作中禁止使用第三方生成式 AI 工具
下一篇 返回列表
头条新闻网

来源: IT之家

本文来源于IT之家。包含文章,图片,视频等资源归属于原作者所有。如有侵权请联系gridf@126.com处理。紧急处理联系电话:15144810328

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部