当前位置：首页 > news >正文

网网站建设设计公司太原seo推广

news 2025/7/13 23:29:41

网网站建设设计公司,太原seo推广,中国移动积分商城,上海网站建设服继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业，再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText，该数据集大概40GB，由OpenAI创建，主要内…

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业，再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText，该数据集大概40GB，由OpenAI创建，主要内容爬取自Reddit平台的出站网络链接对应的网站，每个链接要至少有三个赞，以保障数据质量。

2. 但是WebText数据集不公开，仅OpenAI自己能使用，于是OpenWebText数据集（OpenWebText数据集）应运而生，该数据集搜集超过23亿个链接，大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等（纽约时报的新闻大概也被爬取了，所以有了后来的诉讼），大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源，来源于多个数据集，大概4.8TB，比GPT3多了Github、ArXiv（开放的学术论文分享平台，Kaggle上也有它的数据集）还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽：

许多网站的数据是不可爬取的，有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
封闭APP的数据不可爬取，以中文互联网为例，现在APP的数据要远大于PC互联网数据了，最典型比如微信、小红书等这些APP的数据非常多、非常有价值，但是无法获取
互联网数据在实时更新，不断有新的数据进来

6. 进一步，企业的私有数据没有被用来训练。

7. 再进一步，物理世界的许多数据并没有被捕获，比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据，未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化，还有以下思路可以参考：

预训练的数据集来源优化，获取更高质量的数据集
模型训练的时候为了节省资源会对原数据进行压缩降维，如果数据集高质量点但小点，可以给减小压缩空间

参考来源：
大语言模型（LLM）预训练数据集调研分析

大模型训练数据集分析：多样性和挑战-CSDN博客

http://www.ritt.cn/news/28323.html

相关文章：

网站怎样做友情链接2345网址导航官方网站

网站要精细是什么意思优化公司治理结构

建个微商城网站多少钱杭州余杭区抖音seo质量高

源码站用dz wordpress全国疫情的最新数据

房地产怎么做网站推广市场营销方案怎么做

pandorabox做网站软文写作兼职

西安注册公司网站网站域名ip查询

激励案例网站制作淘宝店铺如何推广

网站建设如何做好整体色彩搭配企业如何建立网站

文旅开发公司东莞百度seo新网站快速排名

毕业设计网站开发类题目搜索引擎优化关键词

网站如何留言百度的企业网站

discuz绿色带门户手机网站模板seo点击工具帮你火21星热情

新手做网站买服务器怎样宣传自己的品牌

公司形象墙设计制作旺道seo推广有用吗

我想做个门户网站怎么做平台推广广告宣传词

大专的动漫制作真的不好吗廊坊快速优化排名

我现在有域名怎么做网站漳州seo网站快速排名

设计坞网站官方下载如何分步骤开展seo工作

北京网站推广服务国内新闻最新消息今天简短

web网站开发案例百度平台客服联系方式

制冷网站建设中企动力对seo的认识和理解

网页设计模板图片下载班级优化大师功能介绍

网站个人公司区别免费大数据分析网站

售后好的品牌策划公司宣城网站seo

代价网站建设网站关键词查询网址

有没有专门做素食的美食网站口碑营销案例简短

FLASK做wiki网站全媒体广告代理

直接用ip访问网站要备案吗谷歌推广怎么做

浏览器网站免费进入廊坊seo推广公司