如何下载和使用维基百科数据转储？_如何使用维基百科转储作为Gensim模型？_HTTPError:服务暂时不可用(维基百科数据转储的多线程下载) - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何自己搞一个维基百科？

大家平时查询资料都喜欢用什么搜索工具呢？也许很多人都是百度吧，但是也有一部分小伙伴习惯使用维基百科~ 维基百科（Wikipedia），又称人民的百科全书，是来自世界各地的人民用不同的语言共同创建的百科全书。它基于wiki技术，强调自由、免费、内容开放，任何人都可以编辑百科全书中的任何条目。其宗旨是为全人类提供一个动态的、可自由访问和编辑的全球知识体。你可以把它看作是一个纯文科类的百度百科的升级国际版，毕竟人们常说：北冥有鱼，其名为鲲。鲲之大，不知其几千里也，错了错了，拿错台词了，应该是这句，维基百科，

02

MySQL Shell转储和加载第2部分：基准测试

关于新的MySQL Shell Dump＆Load实用程序的第二部分旨在演示性能，同时还将其与其他各种逻辑转储和加载工具进行比较：mysqldump，mysqlpump＆mydumper。

02

您找到你想要的搜索结果了吗？

是的

没有找到

LLaMA：开放和高效的基础语言模型

https://github.com/facebookresearch/llama

02

详解中文维基百科数据处理流程及脚本代码

最近在做词向量相关工作，词向量的训练数据采用中文维基百科数据，训练之前，要对维基百科数据进行处理，这篇文章记录了一些处理过程及相关的脚本。

02

假期还要卷，24个免费数据集送给你

数据可视化项目的良好数据集是公开发布数据的新闻网站，他们通常会提供清理过的数据，并且已经有了可以复制或改进的图表，我们既可以从这些图表中找寻灵感，也可以对这些图表直接进行二次改进

04

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

上周，谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型，不到一天时间，收获3000多星！

04

开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键，但现状是，开源的大模型有一堆，可开源的大规模数据却没多少，而收集、清洗数据又是一项极其费时费力的工作，也导致了大模型预训练技术仍然掌握在少数高端机构的手中。

01

「自然语言处理(NLP)论文推送」清华大学XQA数据集（含源码）806

本篇主要给大家介绍两篇文章：一篇是清华大学发表的XQA，该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集，该数据集（训练集、测试集）主要包括九种语言，9万多个问答。第二篇是澳洲昆士兰阳光海岸发表的Katecheo，该篇文章构建了一个模块化系统，它可以轻易的部署在Kubernetes集群（当前很多大公司都会使用Kubernetes）上用作商用。

02

查找论文文献的小技巧

无论是大学期间的小论文还是令人头秃的毕业论文, 查找文献是必不可少的环节. 而这个过程说到底就两句话:

01

维基百科中的数据科学：手把手教你用Python读懂全球最大百科全书

几年前谁能想到，匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库？维基百科不仅是你写大学论文时最好的信息渠道，也是一个极其丰富的数据源。

03

只需5步，维基百科塞进一个U盘 | 免费附教程

Kiwix是由志愿者们开源的一个项目，允许人们离线下载和浏览网站，最重要的是，它免费！

02

BBC最新纪录片数据之欢(上)：美女数学家讲述数据的前世今生

大数据文摘作品，转载具体要求见文末字幕组：陈啸明狗小白白丁 YU 崔云柯一位名叫汉娜的美女数学家，曾经在TED用数学论证了《数学告诉你，完美伴侣如何选择》（点击链接查看ted演讲），而最近，她和BBC刚刚拍摄了一部制作精美的关于数据的纪录片《数据之欢（The Joy of Data》。汉娜教授也亲自上阵出境，从data的词语来源讲起，娓娓道来了信息／数据的产生到如今的发展，以及我们身边的数据是如何影响我们的。正如她所说，我们生活在两个平行的宇宙中。一个宇宙有形、吵杂、散乱, 你可以看到摸到、感

02

吐血整理！12种通用知识图谱项目简介

通用知识图谱大体可以分为百科知识图谱（Encyclopedia Knowledge Graph）和常识知识图谱（Common Sense Knowledge Graph）。

01

艺术？当维基百科打印成书！

摘自：煎蛋（http://jandan.net/）文章已经开通了评论功能，欢迎大家互动点评这也算得上是数学实验中的一种艺术吧——将维基百科这种几乎涵盖了一切你想得到的知识的在线百科全书统统打印出

08

关于维基百科你不知道的十件事：

关于维基百科你不知道的十件事是专门让那些缺乏维基百科经验的人，如记者、新编辑者或新读者，能够对维基百科有一些较深入的认知。这些内容并不会带给那些已经很有经验的维基百科编辑者什么耳目一新的地方，但是我们希望它可以帮助世界上其他人对我们的工作能有更清楚的了解。

04

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

维基百科的中文语料库质量高、领域广泛而且开放，其每月会将所有条目打包供大家下载使用，可以点击： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版（也可以访问：https://dumps.wikimedia.org/zhwiki/ 获取历史版本）。

04

资源 | Facebook开源DrQA的PyTorch实现：基于维基百科的问答系统

选自GitHub 机器之心编译参与：Panda 今年 4 月，斯坦福大学和 Facebook 人工智能研究所在 arXiv 发布了一个基于维基百科的开放域问题问答系统 DrQA。近日，Facebook 在 GitHub 上开源了这个系统的代码，FAIR 主管 Yann LeCun 在社交网络也为这次开源做了宣传。据悉，该研究也将出现在 7 月 30 日举行的 ACL 2017 大会上。论文地址：https://arxiv.org/abs/1704.00051 开源地址：https://github.co

05

Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性

今天为大家介绍的是来自Fabio Petroni团队的一篇论文。可验证性是维基百科的核心内容政策之一：所有的陈述都需要有引用来支撑。维持和提高维基百科参考资料的质量是一个重要挑战。作者展示了如何借助人工智能（AI）来应对改善参考资料的过程，这一AI系统由信息检索系统和语言模型驱动。我们称这个基于神经网络的系统为SIDE，它能够识别那些不太可能支持其声明的维基百科引用，并随后从网上推荐更好的引用。

01

windows下使用word2vec训练维基百科中文语料全攻略！（一）

训练一个聊天机器人的很重要的一步是词向量训练，无论是生成式聊天机器人还是检索式聊天机器人，都需要将文字转化为词向量，时下最火的词向量训练模型是word2vec，所以，今天小编文文带你使用维基百科训练词向量。 1、训练数据下载我们使用维基百科训练词向量，维基百科数据的下载地址为：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。下载后无需解压，中文维基百科的数据比较小，整个xml的压缩文件大约才1G

06

Quicksilver：利用AI技术修复百科存在的问题

Miriam Adelson是一位很有成就的医生，已发表了大约一百篇关于成瘾生理学和治疗的研究论文。她还在拉斯维加斯经营一家备受瞩目的药物滥用诊所。并且，她是以色列最大的报纸的出版商，还有她的丈夫谢尔顿，是一位慈善家和有影响力的共和党捐助者（亿万富翁）。

03

学界 | 谷歌大脑提出通过多文档摘要方法生成维基百科，可处理较长序列

选自arXiv 作者：Peter J. Liu、Mohammad Saleh 等机器之心编译参与：白悦、路雪近日，谷歌大脑发布论文，提出一种通过提取多文档摘要来生成英文维基百科文章的方法，该方法可以处理长序列。序列到序列框架已被证明在自然语言序列转导任务（如机器翻译）中取得了成功。最近，神经技术被应用于提取新闻文章中的单文档、抽象（释义）文本摘要（Rush et al. (2015), Nallapati et al. (2016)）。之前的研究以端到端的方式训练监督模型的输入——从一篇文章的第一

07

维基团队与Jigsaw合作审查社区中带有人身攻击的评论

维基百科社区以人身攻击的评论臭名昭著。这个问题非常糟糕，以至于活跃的贡献者或编辑在八年期间下降了40％。尽管没有一个解决方案可以解决这个问题，但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题，并考虑如何解决这个问题。

03

百余名人辞世,刚过去的2016是被诅咒的一年吗?MIT数据分析预测这只是个开始……

大数据文摘作品，转载具体要求见文末 MIT Media Lab，Center for Research in Social Complexity 编译团队| Aileen, Elaine，王婷 2016年，包括卡斯特罗、拳王阿里等数百位名人与世长辞。许多人认为，2016年是被诅咒的一年。但MIT Media Lab近期的一次数据分析结果告诉我们，其实不然。事实上相比2016年，数据预测，2017年将会有更多名人与世长辞…… 2016年，数百位各领域的佼佼者辞世：大卫·鲍伊（David Bowie，英国知

07

独家 | 一文解析统计学在机器学习中的重要性（附学习资源）

本文共2400字，建议阅读10分钟。本文介绍为什么统计对于通用应用和机器学习如此重要，并大致了解各种可用的方法。

04

维基百科你已经是个大百科了，该自己学会用ML识别原文出处了

作者：Miriam Redi、Jonathan Morgan、Dario Taraborelli、Besnik Fetahu

02

每周学点大数据 | No.49 维基百科的策略中体现的“众包算法”的思想

No.48期众包的定义 Mr. 王：平常遇到不知道的概念或者名词，你一般会怎么办？小可：有维基百科啊，我去查一查就知道了。对于一个名词，维基百科能给出很多的解释，而且这些解释往往非常准确和专业。

04

2017——私有云“死亡”的一年

如今，人们越来越清楚的是，企业选择停止建立私有云基础设施，并于2017年转向混合IT基础设施。许多企业依赖于数据中心服务作为他们事业和谋生手段。然而毫无疑问，2017年是私有云消亡的一年，虽然目前还没有消亡。定义私有云大多数反对私有云死亡的这一想法分为两类。第一个想法来自提供托管私有云的供应商，另一个来自Adobe，沃尔玛和GE等企业成功的私有云部署。因此，定义私有云至关重要。私有云属于难以确定的事物之一。人们不需要再建立一些云计算的技术定义，因为人们看到它的时候就已经了解。专家认为识别私有云最简单

04

维基百科背后，有场旷日持久的机器人编辑之战，开发者都不曾料到

王新民 | 编译自Gizmodo 维基百科上的人类编辑，经常由于修改意见的不同而产生冲突。一份英国的新研究表明，维基百科上的软件机器人之间，也有类似的在线冲突。 PLOS ONE上发表的一项新研究提到，维基百科的机器人经常修改和撤消对方的编辑。这些在线算法有着独特的指令和目标，多年来在内容修改上进行着毫无结果的 “战斗”。这项研究表明，即使在“愚蠢”的机器人之间，也能够产生复杂的交互行为，开发人员需要时刻关注着机器人的一举一动。这一发现不仅影响着维基百科页面的质量，也对人工智能的发展有深远影响，特别是在

AI学者也用维基百科「打广告」？这个词条有点可疑

「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条，百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息，虽然可能不够严谨，但也被很多人作为重要的信息、知识来源。

01

Wolfram 分析 | 根据维基百科数据，《鱿鱼游戏》在全球电视界占据主导地位

韩国新剧《鱿鱼游戏》风靡全球，成为全球爆款。其发行商 Netflix 宣布，“鱿鱼游戏正式拥有 1.11 亿粉丝——这是我们有史以来最大的系列发行！” 它在包括美国在内的 90 个不同国家/地区的排行榜上名列前茅，并被称为“口碑全球轰动”，在新闻和社交媒体中随处可见。

02

维基百科有6000多机器人编辑，那么问题来了，他们要吵架怎么办？

很多人可能都听说人工智能已经可以写文章了，但是你可能不知道编辑机器人早就已经是维基百科最重要的贡献群体之一。 2001 年，维基百科引入了机器人编辑者的概念，任何用户可以为自己研发的机器人单独建立一个维基百科帐号，只要根据维基百科社区官方的规定对帐号进行标注，即可让机器人参与维基百科的编辑。 2014 年，机器人在维基百科的所有语言中完成了 15% 的编辑动作，他们识别、撤销破坏行为，锁定遭到频繁篡改的页面、识别错别字和病句、创建不同语言之间的链接、自动导入站外内容、进行数据挖掘、识别侵权的内容并为新手

03

开源维基百科文档系统mediawiki

MediaWiki 是使用 PHP 编写的免费开源 Wiki 系统。MediaWiki 已使用超过350种语言进行了本地化，其可靠性和强大的功能集为其赢得了庞大而充满活力的第三方用户和开发者社区。

03

每天上千条文本过时，累死志愿者的维基百科被MIT最新AI接手啦！

维基百科作为一个开放协同式的百科网站，是全世界最受欢迎的十大网站之一。目前，维基百科已经累积了超过上百万个词条。

01

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

包含104万个词条的维基百科资源，包含250万篇新闻的新闻语料，以及包含150万个问答的百科类问答资源。

02

windows下使用word2vec训练维基百科中文语料全攻略！（一）

训练一个聊天机器人的很重要的一步是词向量训练，无论是生成式聊天机器人还是检索式聊天机器人，都需要将文字转化为词向量，时下最火的词向量训练模型是word2vec，所以，今天小编文文带你使用维基百科训练词向量。

02

业界 | OpenAI提出新型神经网络：自动计算词对象，实现实体消岐

选自OpenAI 作者：Jonathan Raiman 机器之心编译参与：许迪、黄小天本文通过让神经网络决策一个词是否属于 100 个自动发现的「类别」（非专属范畴）之一，从而建立了一个可以自动计算单词指称对象的神经网络。该方法在若干个实体消岐（entity disambiguation）数据集上实现了当前最优的提升。通过让神经网络决策一个词是否属于 100 个自动发现的「类别」（非专属范畴）之一，我们已建立一个神经网络，可以自动计算一个词所指称的对象。比如对于语句「猎物看到美洲虎（Jaguar）穿过

07

「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识

前文回顾：「Python爬虫系列讲解」一、网络数据爬取概述「Python爬虫系列讲解」二、Python知识初学「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试「Python爬虫系列讲解」四、BeautifulSoup 技术「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息「Python爬虫系列讲解」六、Python 数据库知识「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取「Python爬虫系列讲解」八、Selenium 技术

02

ChineseWiki︱百万中文维基百科词条下载与整理

维基百科开源的中文词条内容，收集了99W+词条，当然比百度少了不少。有效处理该原始语料的方法主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。两种处理都比较粗糙，导致：

03

数据库复习题考试题库（名词解释）

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。

03

[新知] MIT开发能修改维基百科文章错误的自动系统

“ 维基百科自动编辑系统，能够根据输入的新资讯，判断维基百科文章中错误的地方进行修复。”

02

CMU 15-445 数据库课程第四课文字版 - 存储2

在这里，页中不存储元组数据，只会存储日志记录，即通过日志记录我们插入的数据以及我们如何更新系统中的数据，包括：插入元组的语句日志，删除元组的语句日志，更新元组的语句日志。这种设计写得很快，因为不用在一个页里寻找并更新单个元组，就是在末尾追加写，这样写起来非常快，对于磁盘 I/O 也很好。

01

参数量1/50，Meta发布110亿参数模型，击败谷歌PaLM

机器之心报道机器之心编辑部 Yann LeCun 表示：Atlas 是一个不太大的语言模型，具有 110 亿参数，在问答和事实核查方面击败了「大家伙」。我们可以将大型语言模型（LLMs）理解为小样本学习者，其能够通过很少的例子就能学习新任务，甚至仅通过简单的说明就能学习，其中对模型参数量和训练数据的大小进行扩展是模型拥有泛化能力的关键。LLMs 的这种提升归功于更强大算力和存储能力。直观上，推理能力的提高会带来更好的泛化，从而减少样本的学习，然而目前还不清楚有效的小样本学习在多大程度上需要大量的模型参数

01

BBC最新纪录片数据之欢(下)：美女数学家讲述数据的前世今生

大数据文摘作品，转载具体要求见文末字幕组：卫青陈啸明狗小白白丁 YU 崔云柯一位名叫汉娜的美女数学家，曾经在TED用数学论证了《数学告诉你，完美伴侣如何选择》（点击链接查看ted演讲），而最近，她和BBC刚刚拍摄了一部制作精美的关于数据的纪录片《数据之欢（The Joy of Data）》。汉娜教授也亲自上阵出境，从data的词语来源讲起，娓娓道来了信息／数据的产生到如今的发展，以及我们身边的数据是如何影响我们的。上周文摘推送了数据之欢（上）（点击查看），简单来说就是，这位美女数学家先后遇到两

03

先验概率,后验概率,似然概率

老是容易把先验概率,后验概率,似然概率混淆，所以下面记录下来以备日后查阅。区分他们最基本的方法就是看定义，定义取自维基百科和百度百科:

06

用最简陋的LSTM，超越各种Transformer

如今，语言模型的世界，几乎被Transformer/BERT占领了。但如果回到2017年，把轰动世界的论文Attention Is All You Need从时间线上抹掉呢？

04

Facebook开源问答系统DrQA：基于单一信源回答开放域提问

问耕编译整理量子位出品 | 公众号 QbitAI 今天一大早，Yann LeCun就转发了一条消息：Facebook开源了DrQA的代码。 DrQA是一个开放域问答系统。关于DrQA，Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions（阅读维基百科来回答开放域问题）》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。论文的作者为来自斯坦福的Danqi Chen（陈丹琦，之前毕业于清华姚班），以及来自Fac

07

node.js写爬虫程序抓取维基百科（wikiSpider）

思路一（origin:master）：从维基百科的某个分类（比如：航空母舰（key））页面开始，找出链接的title属性中包含key（航空母舰）的所有目标，加入到待抓取队列中。这样，抓一个页面的代码及其图片的同时，也获取这个网页上所有与key相关的其它网页的地址，采取一个类广度优先遍历的算法来完成此任务。思路二（origin:cat）：按分类进行抓取。注意到，维基百科上，分类都以Category:开头，由于维基百科有很好的文档结构，很容易从任一个分类，开始，一直把其下的所有分类全都抓取下来。这个算法对分类页面，提取子分类，且并行抓取其下所有页面，速度快，可以把分类结构保存下来，但其实有很多的重复页面，不过这个可以后期写个脚本就能很容易的处理。

02

【EMNLP2021&&含源码】端到端(seq2seq)关系提取--罗马大学

今天给大家分享一篇关于关系抽取的文章，关系抽取是自然语言处理中信息抽取（EI）的重要组成部分。如果您对信息抽取、关系抽取、实体抽取、事件抽取还不是很了解可以阅读以下几篇文章：

01

互动百科被315点名了，知识产品如何优雅地赚钱？

2016年，知识经济很火。分答、知乎Live等平台先后入局，最近就连那个一直低调潜行的豆瓣也推出了内容付费产品：豆瓣时间，用时髦的话说内容付费俨然已成互联网风口。一项互联网业务到了风口，就可能被315点名。在一年一度的“公关节”315晚会上知识分享平台互动百科就被点名了，理由是因为它的付费服务：企业缴纳费用之后具有更强的编辑权限，甚至可以发布虚假信息，来龙去脉不必赘述，但“互动百科”这家百科知识平台为什么会采取“付费”模式，却值得深究。百科是互联网最古老的内容形态之一。说到百科，人们首先会想到2001

08

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭