首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源

Datawhale干货 作者:虹桥北北 如何在参差不齐海量网页数据中提炼高质量内容?如何保证模型训练数据质量和安全性,如何构建高效处理策略?...根据大模型训练过程中,最优模型参数量、训练数据量和总计算开销之间所存在 规模定律(Scaling Law) 来看,要训练出更强大模型,需要更多模型参数量和更大预训练数据。...有研究显示,训练一个拥有175B参数量语言模型大约需要3.7TTokens高质量预训练数据。...是二覆盖了超过90个CC dumps数据; 除了常用基于关键词和URL屏蔽之外,还使用了基于模型方法来排除含有毒性(toxic)和色情(prongraphy)内容数据,并利用正则表达式来遮蔽个人隐私信息...统计了数据集文档长度,行数,token长度,非字母字符占比,唯一词占比,平均词长,句子数,停用词占比,符号占词比。每个指标的分布如下图所示: WanJuan-CC上各指标百分比统计图。

48510

特征工程(二) :文本数据展开、过滤和分块

两个等效词向量,向量中单词排序不重要,只要它在数据集中个数和文档中出现数量是一致。 重要是特征空间中数据几何形状。 在一个词袋矢量中,每个单词成为矢量一个维度。...“议院”这个词经常出现在加拿大议会辩论Hansard语料库中“众议院”一词中,这是一种用于统计机器翻译流行数据集,因为它包含所有文档英文和法文版本。这些词在普通语言中有意义,但不在语料库中。...在这里,频率被认为是它们出现在文件(评论)中数量,而不是它们在文件中数量。正如我们所看到,该列表涵盖了许多停用词。它也包含一些惊喜。"...例如,n-gram 是一个句子概括,不应超出句子范围。更复杂文本特征化方法, word2vec 也适用于句子或段落。在这些情况下,需要首先将文档解析为句子,然后将每个句子进一步标记为单词。...你可以看到每个库找到名词短语有些不同。spacy 包含英语中常见单词,"a"和"the",而 TextBlob 则删除这些单词。这反映了规则引擎差异,它驱使每个库都认为是“名词短语”。

1.9K10
您找到你想要的搜索结果了吗?
是的
没有找到

我做了个数据选品工具,帮你们搜寻护发神器

又或者你想让你头发有光泽,并且一直渴望有一款合适洗发水、护发素或者发油产品? 不妨试试我制作这个选品工具,可以帮你迅速找到你需要产品。...(图片说明:本文作者制作选品工具页面截图,这个页面集中展示了不同护发品牌得分、网友评论关键词等,在这工具里搜索品牌名或者护发需求,还可查看对应品牌平均得分、评论数、产品排名等。)...(图片说明:美国各州护发产品用户评论数量) 我还分析了评论数量和评分之间关系,其实两者之间呈负相关关系。...从中可以发现,顾客认为最重要因素还是产品功效和香味。 另外,“推荐” 一词在评论数据集中是经常出现。所以,我认为口碑是值得品牌们关注重要市场策略。 ?...它是在内积空间两个非零向量之间一种相似度度量,即计算他们之间角度余弦值。 就信息检索搜索引擎来说,两个文档余弦相似度值是在0到1之间,因为词频(TF-IDF权重)不能为负。

58400

搜索引擎核心技术初探——倒排索引

二、什么是倒排索引 倒排索引是一种数据结构,它将文档集合中每个文档关联到出现在其中每个唯一词汇。简而言之,它颠倒了传统索引结构,从以文档为中心转变为以词汇为中心。...倒排生成阶段 建立词汇表: 将预处理后文档所有唯一词语构建成一个词汇表。每个词汇都有一个唯一标识符。...查询到关键词倒排列表: 对于每个关键词,搜索引擎通过倒排索引找到与之相关文档ID列表。 4....这使得它在不同应用领域中都能够发挥作用,搜索引擎、数据检索、文本挖掘等。 支持多语言: 由于倒排索引是基于关键词,它能够很好地支持多语言文档检索,无论文档集合中包含哪种语言内容。...六、倒排索引其它应用场景 除了在搜索引擎中广泛应用,倒排索引在其他领域也发挥着重要作用: 数据检索:在大规模数据集中,倒排索引可用于快速检索和过滤数据。

54771

“顶流”腾讯双11饭局:排排坐,战天猫

腾讯如何在流量上进行竞争倾斜和扶持? 在今年早前公布京东一季报中,京东宣布与腾讯续签为期三年战略合作协议,协议自2019年5月27日起生效。...除了京东,在微信九宫格里,拼多多、品会和蘑菇街也都可以得到相应流量供给。...品会则和京东与腾讯同时进行了流量合作,三方在战略业务上构建合作共赢生态链。腾讯将给品会微信钱包入口,提供微信平台流量合作。...京东将为品会在京东app首页和微信朋友圈京东入口首页提供入口,并将帮助品会在京东平台上完成一定GMV销售目标。...腾讯系流量价值集中在社交网络,总价值高达1617亿元;百度则集中在搜索推广,总价值为699亿元,阿里系集中在电商,总价值为694亿元。腾讯系流量价值几乎是百度系与阿里系两倍。

78451

响铃:信息流产品被整顿,新闻APP为什么要加码内容质量?

例如,在内容领域,可以分为信息流产品、移动新闻产品(门户或传统媒体)、知识类产品(喜马拉雅)以及各类垂直平台(财新网等),此外,还有音乐、长视频等富媒体内容。...2、升维竞争,新闻APP从流量思维走向内容思维 进一步,根据Trustdata数据,2017年每日打开APP数量少于10款用户比例已经达2/3,较2016年约3/5继续增长。...所谓“大咖代言”活动即是这种内容风格强化,既有大V权威与理性,也有属于普罗大众新闻资讯互动参与方式; 网易新闻历来呈现出格调感,深挖态度一词,强调新闻本身带来品质感,迎合内容消费升级需求,陆续开放精品阅读...,并推动电商整体升级,至今做得不错电商,包括天猫、京东、品会等都以B2C为主。...只是,一次运营大量轻IP并不如集中培养大IP那样有经验可供借鉴,具体如何落地可能还需要探索。 (完)

46820

50年间,高水平论文数量国家排名是怎样变化?| 可视化数据

这是一份50年来,国家间论文数量排名变化趋势。 作者以AMiner数据库3亿多篇论文为基础,提取所有论文所属单位,选取1968年开始积累论文数最高前20个国家进行可视化显示。...1989年,这是中华人民共和国成立40周年,中国超过第17名波兰,在此之后,中国论文数量呈现出逐年快速增长趋势。 2000年-2010年 ?...2010年,经过5年积累,中国超过论文数量榜首美国,打破了美国从1968年至2009年,42年间论文数量一直盘踞榜首神话。...7月底,国务院印发了《关于优化科研管理提升科研绩效若干措施通知》,提出要切实精简人才“帽子”,开展“论文、职称、学历”问题集中清理。...一些科研人员对评价标准“感情复杂”:一方面,“论文、职称、学历、奖项”“四”评价方式在一定程度上束缚了他们发展;另一方面,相关评价指标也因在某种程度上行之有效而获得认可。

53920

序列数据和文本深度学习

虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类语言。这些序列模型能够成功地找到可执行不同任务有用模式。...3.n-gram表示法 我们已经看到文本是如何表示为字符和词。有时一起查看两个、三个或更多单词非常有用。n-gram是从给定文本中提取一组词。在n-gram中,n表示可以一起使用数量。...1.独热编码 在独热编码中,每个token都由长度为N向量表示,其中N是词表大小。词表是文档中唯一词总数。让我们用一个简单句子来观察每个token是如何表示为独热编码向量。...· 初始化函数__init__创建一个word2idx字典,它将所有唯一词与索引一起存储。idx2word列表存储是所有唯一词,而length变量则是文档中唯一词总数。...以下代码演示了如何构建word2idx以及如何调用onehot_encoded函数: 上述代码输出如下: 单词were独热编码如下所示: 独热表示问题之一就是数据太稀疏了,并且随着词表中唯一词数量增加

1.3K20

主题建模技术介绍-机器学习模型自然语言处理方法

LSA主要缺点: LSA可以处理向量空间模型无法解决一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。...P(D,W) = P(D)∑P(Z|D)P(W|Z)提供了一个联合概率,表明基于主题分布文档找到某个单词可能性有多大。...第五步:可视化的话题 通过交互pyLDAvis工具,可以更好地可视化主题最佳数量。pyLDAvis显示主题数量、重叠主题以及给定主题中包含所有单词,以便用户采取必要操作。 ? ?...第六步:优化主题 在这一步中,超参数被调优以优化主题数量。运行alpha(文档-主题密度)、k和beta(主题-词密度)不同组合,计算它们相干性得分。结合相干度最高得分建立LDA模型。...由于LDA能够构建有效字典并使用以前学习来预测新文档集中主题,因此它是高级主题建模推荐模型。

3.1K10

调查报告:云计算、大数据人才紧俏

美团网、品会、携程、1号店。...美团招聘数据显示,开发人才占研发总需求67.63%,其他需求主要集中在产品和设计方向上,分别占22.71%和9.66%。   ...随着市场竞争加大,电商平台用户体验要求也越来越高,是否能保证用户在快速找到自己需求商品是考量电商平台是否合格标准之一。...总结   对于电商行业来说,除了与大多数互联网企业一样对后台开发人才需求之外,更多是具有针对性岗位需求,广告、推荐、搜索及架构方面岗位对算法、云计算及大数据人才需求。...人才招聘一直是令许多企业头疼难题,如何以最低成本招到合适的人才?值得探讨!而对于技术人才来说,如何找到一份适合自己工作也不容易。

1.7K100

教你在Python中实现潜在语义分析(附代码)

回想一下刚才提到将相似的书籍整理到一起例子。现在假设你要对一些电子文档执行类似的任务。只要文档数量不太多,你就可以手动完成。但是如果这些文档数量非常多呢? 这就是NLP技术脱颖而出地方。...我们真正需要是弄清楚单词背后隐藏概念或主题。LSA是一种可以发现这些隐藏主题技术。现在我们来深入探讨下LSA内部工作机制。 LSA实施步骤 假设我们有m篇文档,其中包含n个唯一词项(单词)。...矩阵Uk(document-term matrix)每个行向量代表相应文档。这些向量长度是k,是预期主题数。代表数据中词项向量可以在矩阵Vk(term-topic matrix)中找到。...因此,SVD为数据中每篇文档和每个词项都提供了向量。每个向量长度均为k。我们可以使用余弦相似度方法通过这些向量找到相似的单词和文档。...每个点代表一个文档,颜色代表20个新闻组。我们LSA模型做得很好。可以任意改变UMAP参数来观察其对图像影响。 可在此找到本文完整代码。

4.3K30

小程序新一波电商浪潮来袭

三天,销售额114.37万元,曝光613.36万次; 一个半月,新客数量突破300万,购买转化率是APP2倍; 五个月,用户暴增1000万+.........品会在2018年二季度数据显示,约400个品牌打造了微信小程序,旨在捕捉与品牌合作伙伴于微信生态系统中发展机会。获取新客、激活休眠客户方面使用品会小程序新客数量环比增长超500%。...针对B端,品会近期推出了品仓app是借助微信社交平台,把代购群体很好地结合起来,快速建立了为品牌清仓新玩法。...品会特卖基因在小程序生态中 第三种在小程序生态中正在爆发“电商”力量是零售线上化一波新机会。...目前,小程序电商赛道已经形成,如何掘金,如何在这一波浪潮中找到机会,如何利用好微信这一系统性机会将是一大考验。

55600

文本处理,第2部分:OH,倒排索引

文档索引:给定一个文档,将其添加到索引中 文档检索:给定查询,从索引中检索最相关文档。 下图说明了这是如何在Lucene中完成。 p1.png 指数结构 文档和查询都以一句话表示。...标记文档(分解成文字) 小写每个单词(使其不区分大小写,但需要注意名称或缩写) 移除停用词(取出“the”,“a”等高频词,但需要小心词组) 词干(标准化同一词不同形式,例如减少“跑”,“跑”,“跑”...这将每个查询需要搜索段文件数量保持在O(logN)复杂度,其中N是索引中文档数量。Lucene还提供了一个明确“优化”调用,将所有的段文件合并为一个。...有没有办法让我们不必遍历整个列表,仍然能够找到大概顶级K文件?我们可以考虑一些策略。...Lucene提供了一个明确“优化” 分布式索引 对于大型语料库(Web文档),索引通常分布在多台机器上。有两种分配模式:术语分区和文档分区。

2K40

网络抓取与网络爬取区别

网络抓取是指您获取任何在线公共数据并将找到信息导入计算机上任何本地文件中。这里与数据抓取主要区别在于,网络抓取需要连接互联网。 这些定义也适用于爬取。如果其中包含“web”一词,则它涉及互联网。...网络爬取(或数据爬取)用于数据提取,是指从万维网上或其它载体(任何文档,文件等)上收集数据。正常情况下,爬取数据量都会很大,但是也可以小数据量爬取。因此,通常使用爬虫代理来完成。...2.发现产品页面 3.然后找到产品数据(价格,标题,描述等) 然后将下载爬虫找到产品数据——这一部分就是网络/数据抓取。...利用这些数据,企业可以做出更明智决策并改善客户体验。 随着互联网用途扩展,由数据驱动公司数量不断增长。根据Forrester统计,此类企业业务年平均增长率约为30%。...概括地说,网络爬取与网络抓取之间主要区别是:爬取表示浏览数据,然后单击它;抓取表示下载所述数据。至于网络或数据一词-如果其中包含网络一词,则涉及互联网。

1.6K30

【ACL2020】基于语境文本分类弱监督学习

但是由于一词多义现象存在,同一个seed word会出现在不同类别中,从而增加生成正确伪标签难度;同时,单词w在语料库中所有位置都使用一个词向量,也会降低分类模型准确性。...而本篇论文主要贡献有: 开发一种无监督方法,可以根据词向量和seed words,解决语料库中单词一词多义问题。...综上,一词多义问题解决算法如下: ? 使用上面算法,我们就可以将原始语料库转变为基于语境下语料库: ?...我们可以选择分值最高前几个单词作为新seed word。也可以剔除一些不重要seed word。 ? 其中: ? 表示类别为 文档数量。...表示类别为 且含有单词w文档数量。 表示在类别为 文档中,单词w词频。 n为语料库D文档总数目 表示语料库D中含有单词w文档数量

93420

1分钟链圈 | 全球公有链技术评估,星云链位列全球第三!以太坊扩展解决方案Raiden发布新测试网络

融资 链投资汽车服务生态系统Cahrenheit,其认为Cahrenheit正在彻底改变汽车行业 恭喜你,今天新闻全部看完啦。...与上期相比,本期模型在应用性指标评估中,新增加了公有链DApp数量指标。...相比其他公有链,在DApp数量方面,星云链、以太坊具有较大优势,据统计,以太坊上DApp数量超过1500个,而星云链上DApp数量已超过6000个。...《证券日报》 8.链投资汽车服务生态系统Cahrenheit,其认为Cahrenheit正在彻底改变汽车行业 7月20日消息,据链(VeChain)官方,VeChain参与了最近关闭Cahrenheit...全球第四大电信运营商详细说明了如何在不允许文件被篡改情况下使用该应用程序来存储合同。如前所述,系统将使用区块链对合同进行加密,并以分散方式存储它,这可以通过消除对集中管理系统需求来简化验证过程。

45840

戴威悲壮坚守,共享单车最后美好

ofo当下正在经历正是资本驱动发展模式集中体验,正是由于资本太过关注市场份额,所以才导致了ofo会不断布局,不断增加投放,不断增加运营成本,最终让自己陷入到了不断投放,成本不断攀升,盈利持续缺失怪圈之中...摩拜倒戈、ofo坚守都在告诉我们以资本为主要驱动力发展模式往往会掩盖事物本身美好,而如何在资本退潮时候,找到发展模式,或许才是接资本东风,实现自身突破性发展第一步。...互联网式发展模式带来一个直接结果就是仅仅只是将投放作为发展第一要务,因为投放数量增加预示着流量不断增长。...随后有更多入局者和资本涌入彻底打破了共享单车发展节奏,盲目地追求数量,最终让共享单车走进了便利小于麻烦死循环。...或许这是共享单车在经历了过山车式发展之后大彻大悟,资本至上发展模式带来必然是狂热和寒冬两极分化状态。

35110

为何小程序电商能够爆发?小程序爆发年电商春水被搅动之年

三天,销售额114.37万元,曝光613.36万次;  一个半月,新客数量突破300万,购买转化率是APP2倍;  五个月,用户暴增1000万+......  ...、品会、洋码头、苏宁等在这个阶段兴起,继而是在移动互联网时代,带来了拼多多、微店、云集等社交电商蓬勃发展。 ...品会在2018年二季度数据显示,约400个品牌打造了微信小程序,旨在捕捉与品牌合作伙伴于微信生态系统中发展机会。获取新客、激活休眠客户方面使用品会小程序新客数量环比增长超500%。 ...针对B端,品会近期推出了品仓app是借助微信社交平台,把代购群体很好地结合起来,快速建立了为品牌清仓新玩法。  第三种在小程序生态中正在爆发“电商”力量是零售线上化一波新机会。 ...目前,小程序电商赛道已经形成,如何掘金,如何在这一波浪潮中找到机会,如何利用好微信这一系统性机会将是一大考验。

94930

全文搜索 (一) - 基础概念和match查询

全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关文档。...它们在单一词条上进行操作。一个针对词条Footerm查询会在倒排索引中寻找该词条精确匹配(Exact term),然后对每一份含有该词条文档通过TF/IDF进行相关度_score计算。...会被传入到标准解析器中,得到结果是单一词条"quick"。因为我们得到只有一个词条,match查询会使用一个term低级查询来执行查询。...找到匹配文档 term查询会在倒排索引中查询"quick",然后获取到含有该词条文档列表,在这个例子中,文档1,2,3会被返回。...文档3比文档2相关度更高,因为quick出现了两次。

86000

和柳叶刀、细胞说再见:加州大学宣布取消所有Elsevier期刊订阅

加州大学与爱思尔长达 8 个月谈判宣告破裂,很有可能会对美国及其他地区科学传播和开源运动方向产生重大影响——加州大学共有 10 个分校,其出版内容数量占据美国全国近 10%,这也是迄今为止抵制爱思最大学术机构...加州大学行动或许已为爱思尔,以及其他出版商在订阅合同谈判中带来了很大压力,德国瑞典大学和实验室联盟与爱思尔正在进行类似谈判目前也已陷入僵局,大学方面正在努力降低订阅费用。...面对谈判破裂窘境,加州大学和爱思尔互相指责对方承担责任。...加州大学系统去年大约发布了 5 万篇学术研究文章,其中很大一部分——大约 1 万篇是发表在爱思尔旗下期刊上。 目前,UC 将不得不寻找其他方式来访问来自爱思出版物。...加州大学已表示,其图书馆准备为读者们提供一些「替代访问手段」以免费提供爱思尔期刊新论文,以及其他期刊子集中新文章。UC 同时指出,爱思一些新论文已经是以开放存取形式出版了。

67430
领券