开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在哪里可以找到维基百科或像谷歌新闻这样的大型文章数据集上的预先训练好的doc2vec模型？

您可以在以下地方找到维基百科或类似谷歌新闻的大型文章数据集上预训练好的doc2vec模型：

Gensim官方网站：Gensim是一个流行的Python库，用于主题建模、文档相似性和向量空间建模等自然语言处理任务。您可以在Gensim官方网站上找到预训练好的doc2vec模型，该模型可以用于处理维基百科或类似的大型文章数据集。官方网站链接：https://radimrehurek.com/gensim/
Kaggle：Kaggle是一个数据科学竞赛平台，提供各种数据集和机器学习模型。您可以在Kaggle上搜索与维基百科或谷歌新闻相关的数据集，并查找其他用户分享的预训练好的doc2vec模型。Kaggle网站链接：https://www.kaggle.com/
GitHub：GitHub是一个代码托管平台，许多研究人员和开发者会在GitHub上分享他们的机器学习模型和数据集。您可以在GitHub上搜索与维基百科或谷歌新闻相关的项目，并查找预训练好的doc2vec模型。GitHub网站链接：https://github.com/

请注意，以上提到的资源可能包含来自不同作者和组织的模型，因此在使用之前，请确保仔细阅读相关文档和许可证，以了解模型的使用限制和要求。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

深度 | 万物向量化：用协作学习的方法生成更广泛的实体向量

，相比谷歌的 word2vec 模型能实现更广泛实体（包括名人、商家、用户等）的嵌入、更高的准确率以及少 4 个数量级的数据需求量。...对于像「红色」和「香蕉」这样的单词，Google 已经为我们提供了预训练好的 word2vec 嵌入，但是并没有为我们提供诸如一个社交网络、本地企业或是其他没在 Google 新闻语料库中频繁出现的实体的嵌入...例如，他们可以用在预测用户可能会点击哪些广告的模型上，可以用在预测哪些大学申请者很可能以优异的成绩毕业的模型上，或者用在预测哪个政客有可能赢得选举的模型上。...我决定训练一个分类器，它可以从一个人的维基百科文章中获取一个文本片段，然后学习猜测这个片段是关于谁的。训练任务将以几个实体嵌入作为输入，并输出文本片段所涉及的真实实体嵌入。...实例 2：Yelp 商家接下来，我想看看这项技术是否可以推广。它是只能在维基百科上管用，还是更通用。我尝试应用同样的技术，以 Yelp 数据集来训练商家的嵌入。

9897 0

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

Word2Vec 和 Doc2Vec 最近，谷歌开发了一个叫做 Word2Vec 的方法，该方法可以在捕捉语境信息的同时压缩数据规模。...从这里开始，你可以训练自己语料库（一个文本数据集）的词向量或者从文本格式或二进制格式文件中导入已经训练好的词向量。 ?...我发现利用谷歌预训练好的词向量数据来构建模型是非常有用的，该词向量是基于谷歌新闻数据（大约一千亿个单词）训练所得。需要注意的是，这个文件解压后的大小是 3.5 GB。...为了使模型更有效，许多机器学习模型需要预先处理数据集的量纲，特别是文本分类器这类具有许多变量的模型。 ? 最后我们需要建立测试集向量并对其标准化处理： ?...如果你想要使用我自定义的库，你可以在我的 github 主页上找到它，但是这个库非常混乱而且没有定期维护！如果你想要贡献自己的力量，请随时复刻我的项目。

5.5K11 2

斯坦福齐鹏、陈丹琦解读两大新QA数据集：超越模式匹配的机器阅读理解

这两个数据集尝试囊括超越常见模式匹配方法所能回答的问题，增加机器阅读理解和问答的难度，从而促进相关研究的发展。你是否曾经在谷歌上随意搜索过一些问题？...近期，像 SQuAD 和 TriviaQA 这样的大规模问答数据集推动了这一方向的诸多进展。...通过让研究人员训练需要大量数据的强大深度学习模型，这些数据集已经催生了许多令人印象深刻的结果（例如一种算法可以在维基百科页面上寻找合适的答案，来回答许多随机提出的问题），这在某种程度上让人类不必再自己完成这些艰难的工作...SQuAD 数据集包含从超过 500 多篇维基百科文章中收集到的逾 10 万份问答样本。...通过实验我们可以看到，这些支撑性事实不仅可以让人们更容易地审核问答系统给出的答案，也可以为模型提供比之前问答数据集更强的监督，从而提升模型更准确地找到期望答案的性能，而这是之前该方向的问答数据集所欠缺的

1.6K3 0

使用NLP检测和对抗AI假新闻

以下是维基百科的定义： ❝“假新闻（又称垃圾新闻、假新闻或骗局新闻）是指通过传统新闻媒体（印刷和广播）或在线社交媒体故意造谣传播的新闻形式。”...我们可以简单地谷歌它，参考值得信赖的新闻网站，并事实检查他们是否有相同或类似的故事。 ? 尽管这一步让人感觉像是常识，但它实际上是确保一条新闻真实性的最有效方法之一。...数据集和创建它的代码是开源的，因此你可以下载并按原样使用它，也可以按照Grover的规范生成自己的数据集。...像技术博客里的解释对于我自己提供的文本，Grover失败了，因为它没有接受过此类技术文章的训练： ? 但是GPT-2探测器模型却起作用了，因为它是在各种各样的网页上被训练的（800万！）。 ?...FEVER数据集的发布是一个值得欢迎的举动，它将有助于我们在各种环境中探索和构建更多这样的带有假新闻的数据集，因为这将直接推动进一步的研究。

1.6K2 0

GPT-3 不够 Open，BigScience 构建开放语言模型，规模小 16 倍

大型语言模型（LLM）能够实现基于文本的数据集识别、预测和生成语言的算法，已经吸引了商业和技术爱好者的广泛关注。...从欧洲核研究组织（CERN）及大型强子对接机等项目中收获得灵感，BigScience 的目标是创建 LLM 和大型文本数据集，并将这些数据集最终向更广泛的人工智能社区开放。...根据估计，在单一 AWS 实例上运行 GPT-3 的成本至少为 87000 美元。年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化。...例如，基于维基百科的数据集内不同语种的素材规模差异巨大，而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。...语言模型已成为医疗保健、金融服务等行业的关键工具，可用于处理专利、从科学论文中获得见解，推荐新闻文章等。但是，规模较小的组织也越来越多地被排除在 AI 的前沿进步之外。

8794 0

迁移学习：如何在自然语言处理和计算机视觉中应用？

与独热编码相比，这些单词的嵌入是一种更丰富的表示单词的方式。它们被广泛使用，并且存在着不同的变体。通常，这些变体在其起源的语料库中有所不同，例如维基百科、新闻文章等，以及嵌入的模型也有所不同。...虽然word2vec和FastText都是在维基百科或其他语料库上经过训练的，但能使用的词汇量是有限的。在训练中，没有经常过出现的单词总是会被遗漏。...在不超过5000张图片的数据集上训练诸如ResNet或VGG net这样的架构，只会导致明显的过度拟合。最近的深度学习趋势已经取得了显著的进步，但似乎只有使用少量数据集的数据科学家被冷落了。...首先，如果有相当数量的图片(每个类有大于1000张图像)可用，你可以初始化一个新的模型，该模型的权重是在一个不同的数据集上训练的。...无论如何，只要数据与大型数据集中的图像相似，就可以使用一个大型的预先训练过的网络(在大型数据集上进行训练)。

1.6K7 0

论文阅读：《Convolutional Neural Networks for Sentence Classification》

在这样的密集表示中，语义上接近的词在低维矢量空间中同样接近欧几里得或余弦距离。卷积神经网络（CNN）利用具有应用于局部特征的卷积滤波器的层（LeCun等，1998）。...正则化对于正则化，我们在倒数第二层上使用Dropout，并对权向量的l2范数进行约束。数据集和实验步骤我们在各种基准测试我们的模型。数据集的总结统计见表1。...预训练词向量使用无监督神经语言模型获得的词向量进行初始化是一种普遍的方法，可以在缺乏大型监督训练集的情况下提高性能。...这些结果表明，预训练好的向量是好的，“通用”的特征提取器，可以跨数据集使用。为每个任务微调预先训练好的向量，可以进一步改进（CNN-非静态）。...多通道与单通道模型我们最初希望多通道架构能够防止过拟合（通过确保学习矢量不会偏离原始值太远），因此比单通道模型效果更好，特别是在较小的数据集上。结果则不然，所以需要进一步规范微调过程的工作。

1.1K5 0

原创 | 利用BERT 训练推特上COVID-19数据

BERT-LARGE主要用于训练英文维基百科（3.5B字）和免费书籍语料库（0.8B字）等大型的原始文本数据集，虽然这些数据集中包含了海量的数据，但是它却没有包含特殊子领域的相关信息，在一些特定的专业领域...控制持续学习率设为2e-5，在专业领域数据集上预训练时，模型的参数设置和谷歌官方在GitHub上推荐的参数设置相一致。...CT-BERT为基于transformer的模型，在关于COVID-19主题的大量推特消息语料库上预先训练好。v2模型在9700条推文基础上进行训练 (1.2B训练示例)。...图1 Huggingface 从huggingface中加载预先训练好的模型：图2 可以使用内置的管道来预测内部标识：图3 从TF-Hub中加载预先训练好的模型：图4 用以下脚本对CT-BERT...如果是做研究工作的话，可以申请访问TPU和/或谷歌云。安装递归地克隆存储仓库：图5 代码是使用tf-nightly开发的，并确保它向后兼容，以便能在tensorflow 2.2上运行。

6413 0

CMU最新视觉特征自监督学习模型——TextTopicNet

Jawahar 译者 | 林椿眄编辑 | Jane 出品 | 人工智能头条 ▌摘要深度学习方法在计算机视觉领域所取得的巨大成功，要归功于大型训练数据集的支持。...维基百科文章通常由文字及其他多媒体类型的对象(如图像，音频或视频文件) 组成，因此可以将其视为多模态的文档数据。...其次，我们在 PASCAL VOC 2007 数据集的图像分类任务中对 TextTopicNet 模型每层的特征进行基准分析，以找到了 LDA 模型的最佳主题数量。...数据集上 35582 篇文章训练了一个 LDA 模型，以确定 LDA 模型的主题数量。...下表 2、3和4 分别展示各模型在 PASCAL VOC 2007、SUN397 和 STL-10 数据集上的分类表现，表 5 展示了在 PASCAL VOC 2007 数据集上模型的检测性能。

1.9K2 1

4个计算机视觉领域用作迁移学习的模型

我们没有在鸟类检测上使用文本分类模型。...在实践中，几乎总是有人是科技巨头或一群明星研究人员。他们通常选择一个非常大的数据集作为他们的基础数据集，比如ImageNet或Wikipedia Corpus。...当然，这个预先训练过的模型必须公开，这样我们就可以利用这些模型并重新使用它们。重用模型在我们掌握了这些预先训练好的模型之后，我们重新定位学习到的知识，包括层、特征、权重和偏差。...它通常会有所有的层和权重，你可以根据你的意愿调整网络。对问题进行微调现在的模型也许能解决我们的问题。对预先训练好的模型进行微调通常更好，原因有两个：这样我们可以达到更高的精度。...在我们将自定义层添加到预先训练好的模型之后，我们可以用特殊的损失函数和优化器来配置它，并通过额外的训练进行微调。

1.1K4 0

假期还要卷，24个免费数据集送给你

使用 GCP，我们可以使用名为 BigQuery 的工具来探索大型数据集。谷歌同样在一个页面上列出所有数据集，也需要注册一个 GCP 帐户，同时可以对前 1TB 的数据进行免费的查询。...我们可以在维基百科网站上找到各种下载数据的方法，还可以找到以各种方式重新格式化数据的脚本。...Quandl 对于建立模型预测经济指标或股票价格很有用。由于有大量可用数据集，因此可以构建一个复杂的模型，使用许多数据集预测另一个数据集的值。...全球卫生组织提供了关于抗菌药物耐药性、痴呆症、空气污染和免疫接种等主题的各种数据。我们可以在GHO上找到几乎所有与健康相关的主题的数据，这使得它成为健康领域数据科学家极为宝贵的免费数据集资源。...谷歌是一个数据发电站，所以他们的搜索工具在寻找特定数据集的其他方法上脱颖而出是有道理的。我们所需要做的就是转到谷歌数据集搜索，并在搜索栏中键入与我们要查找的数据集相关的关键字或短语。

1.3K4 0

利用BERT训练推特上COVID-19数据

大数据文摘授权转载自数据派THU作者：陈之炎一直以来，Twitter是新闻的重要来源，在COVID-19大流行期间，公众可以在推特上表达自己的焦虑情绪。...BERT-LARGE主要用于训练英文维基百科（3.5B字）和免费书籍语料库（0.8B字）等大型的原始文本数据集，虽然这些数据集中包含了海量的数据，但是它却没有包含特殊子领域的相关信息，在一些特定的专业领域...控制持续学习率设为2e-5，在专业领域数据集上预训练时，模型的参数设置和谷歌官方在GitHub上推荐的参数设置相一致。...CT-BERT为基于transformer的模型，在关于COVID-19主题的大量推特消息语料库上预先训练好。v2模型在9700条推文基础上进行训练 (1.2B训练示例)。...图1 Huggingface 从huggingface中加载预先训练好的模型：图2 可以使用内置的管道来预测内部标识：图3 从TF-Hub中加载预先训练好的模型：图4 用以下脚本对CT-BERT

5581 0

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

数据稀缺，成为永恒数据、算力、算法都是训练强大人工智能重要的资源之一。对于训练ChatGPT、Gemini这样的大模型完全基于互联网上获取的文本数据打造的，包括科学研究、新闻报道和维基百科条目。...他继续表示，基于Chinchilla缩放定律的原理，如果继续遵循这样扩展轨迹，像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。...他对外公开称，Meta可以在其网络（包括Facebook和Instagram）上挖掘数千亿张公开共享的图片和视频，这些图片和视频的总量超过了大多数常用的数据集。...在2022年的一篇论文中，Datalogy AI研究人员Morcos和合著者估计，如果数据正确，模型可以用一半的时间取得同样的结果。这有可能降低训练和运行大型生成式人工智能系统的巨大成本。...在这个市场上，OpenAI它可以建立一种方法，来确定每个数据点对最终训练模型的贡献，并向该内容的提供商支付费用。同样的想法，也在谷歌内部进行了讨论。

941 0

多语言互通：谷歌发布实体检索模型，涵盖超过100种语言和2000万个实体

谷歌AI研究人员近期提出了一种新的技术，在这种技术中，可以将特定语言解析为与语言无关的知识库。如果一段文本中提到一个实体，算法将识别出该实体在知识库中的相应条目(例如一篇维基百科文章)。...知识库本质上是包含实体信息的数据库，包括人、地点和事物等。2012年，谷歌推出了一个知识库的新概念：知识图谱，以提高搜索结果的质量。...此外，两位作者还创建了一个匹配数据集： Mewsli-9，该数据集横跨多种语言和实体，其中包括 WikiNews 的58717篇新闻文章中提到的289087个实体。...谷歌通过自动提取的 Mewsli-9 数据集作为一个起点，用于评估超越根深蒂固的英语基准和扩大的多语言环境下的实体链接。不过，研究人员目前对于模型是否能够显示出统计学偏差还不清楚。...但是谷歌的合作者们通过使用非专家的人工评分员来为提高训练数据集的质量和合并关系知识敞开了大门。

8642 0

斯坦福大学陈丹琦等人解读机器阅读最新进展：超越局部模式匹配

这些数据集允许研究人员训练强大而缺乏数据的深度学习模型，现在已经获得了非常好的结果，例如能够通过从维基百科页面上找到合适答案来回答大量随机问题的算法（相关论文：「Reading Wikipedia to...我们认为许多问题无法通过段落中的某组连续的单词来回答，这将限制对话的自然性。例如，对于像「How many?」这样的问题，答案可能只能是「three」，尽管文章中的文本并没有直接将其拼写出来。...CoQA 的另一个重要特征便是，该数据集从 7 个不同的领域收集而来，包括儿童故事、文学、中学和高中英语考试、新闻、维基百科、Reddit 以及科学，同时，最后的两个领域被用于做域外评估。...同时，让我们感到惊讶的还有它自发布以来所取得的诸多进展，尤其是在去年 11 月谷歌发布 BERT 模型之后——该模型大大提升了当前所有系统的性能。 ?...然后，我们可以在维基百科上查找「斯坦福大学」（在这种情况下，我们只需点击链接），然后找出斯坦福大学所在的地址。斯坦福大学的页面显示它位于「加利福尼亚州」。

4321 0

NLP小数据集训练指南

回译的方法不仅有类似同义词替换的能力，它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力。文档裁剪新闻文章通常很长，在查看数据时，我发现对于分类来说并不需要整篇文章。...在计算机视觉中，从预先训练的ImageNet模型开始是解决问题的一种常见的做法，但是NLP没有像ImageNet那样可以用于迁移学习的大型数据集。 ?...为了做到这一点，我们可以使用预训练的句子编码器，如 Facebook 的InferSent或谷歌的通用句子编码器。...使用现成的网络进行预训练在很多公司中，大部分用于不同任务的机器学习模型都建立在相同的数据集或类似的数据集上。例如推文，我们可以预测其主题、观点、转发数量等。...深度学习在小数据集上的应用仍处于该研究领域的早期阶段，但看起来它越来越受欢迎，特别是对于预训练的语言模型，我希望研究人员和从业者能够找到更多的方法使用深度学习，让每一个数据集产生价值。

5143 0

NLP小数据集训练指南

回译的方法不仅有类似同义词替换的能力，它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力。文档裁剪新闻文章通常很长，在查看数据时，我发现对于分类来说并不需要整篇文章。...在计算机视觉中，从预先训练的ImageNet模型开始是解决问题的一种常见的做法，但是NLP没有像ImageNet那样可以用于迁移学习的大型数据集。...为了做到这一点，我们可以使用预训练的句子编码器，如 Facebook 的InferSent或谷歌的通用句子编码器。...使用现成的网络进行预训练在很多公司中，大部分用于不同任务的机器学习模型都建立在相同的数据集或类似的数据集上。例如推文，我们可以预测其主题、观点、转发数量等。...深度学习在小数据集上的应用仍处于该研究领域的早期阶段，但看起来它越来越受欢迎，特别是对于预训练的语言模型，我希望研究人员和从业者能够找到更多的方法使用深度学习，让每一个数据集产生价值。

1.3K2 0

【干货指南】机器学习必须需要大量数据？小数据集也能有大价值！

回译的方法不仅有类似同义词替换的能力，它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力。文档裁剪新闻文章通常很长，在查看数据时，我发现对于分类来说并不需要整篇文章。...在计算机视觉中，从预先训练的ImageNet模型开始是解决问题的一种常见的做法，但是NLP没有像ImageNet那样可以用于迁移学习的大型数据集。...为了做到这一点，我们可以使用预训练的句子编码器，如 Facebook 的InferSent或谷歌的通用句子编码器。...使用现成的网络进行预训练在很多公司中，大部分用于不同任务的机器学习模型都建立在相同的数据集或类似的数据集上。例如推文，我们可以预测其主题、观点、转发数量等。...深度学习在小数据集上的应用仍处于该研究领域的早期阶段，但看起来它越来越受欢迎，特别是对于预训练的语言模型，我希望研究人员和从业者能够找到更多的方法使用深度学习，让每一个数据集产生价值。

1.3K4 0

资源 | 从图像处理到语音识别，25款数据科学家必知的深度学习开放数据集

介绍深度学习（或生活中大部分领域）的关键在于实践。你需要练习解决各种问题，包括图像处理、语音识别等。每个问题都有其独特的细微差别和解决方法。但是，从哪里获得数据呢？...我们同样介绍了具备当前最优结果的论文，供读者阅读，改善自己的模型。如何使用这些数据集？首先，你得明白这些数据集的规模非常大！因此，请确保你的网络连接顺畅，在下载时数据量没有或几乎没有限制。...这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。...其目的是：鼓励研究商业规模的算法为评估研究提供参考数据集作为使用 API 创建大型数据集的捷径（例如 The Echo Nest API）帮助入门级研究人员在 MIR 领域展开工作数据集的核心是一百万首歌曲的特征分析和元数据...如果你还在寻找起始点，那么点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型，点击 http://www.openslr.org

7854 0

采用通用语言模型的最新文本分类介绍

我们提出了一种有效的迁移学习算法可以应用于任意的自然语言处理任务，并且引入对微调语言模型至关重要的方法。我们的方法在六种分类任务上优势明显，可以在大多数数据集上将错误率降低 18-24%。...我们决定使用 Stephen Merity 的 Wikitext 103 数据集，该数据集为一个经过预处理过的英文维基百科的较大子集。...自然语言处理的研究主要集于英语，在其他的语言上训练模型会遇到相对应的困难。一般来说，非英语语言的公开数据集的数量很少。如果你想要在像泰语这样的语言上训练一个文本分类模型，你无疑需要自己搜集数据。...在非英语语言上搜集数据，通常意味着你需要自己标注数据，或者找到标注者来处理它们，就像 Amazon Mechanical Trurk 雇佣了很多说英语的标注者做众包服务那样。...如果你在一个新的问题或数据集上尝试了 ULMFiT 模型，我们十分高兴能够听到这个消息！

7752 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭