腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用预训练的手套向量
、
我使用的是
Python
2.764位,我想在spacy.By中使用预先训练好的维基
百科
语料库的词向量,默认在glove.can的普通
爬虫
语料库上训练,任何人都可以提供相同的代码片段。
浏览 0
提问于2017-04-27
得票数 0
1
回答
如何从应该匹配的字符串列表中自动生成优化的regexp
最近,我正在寻找一个regexp,它可以检测连接到我的was应用程序的用户代理是一个
爬虫
。有很多
爬虫
,像google,yahoo,bing,facebook和许多其他的
爬虫
,他们在User-Agent头中宣传自己。
浏览 2
提问于2012-10-22
得票数 1
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
1
回答
爬行网站的点击率.?
、
、
、
我正在创建一个简单的应用程序,在这个应用程序中,我必须遵循页面的链接,因此on...thus构建了一个非常基本的web
爬虫
原型。当我测试它时,我遇到了robot.txt,它对任何试图爬行他们的站点的外部
爬虫
都有点击限制。例如,如果一个网站的robot.txt的命中限制不超过每秒1次(与wikipedia.org一样),那么如果我以每秒1页的速度爬行维基
百科
的几个页面,那么我如何估算它在爬行时会被点击多少次呢?问题:,如果我通过
python
的urllib下载整个页面,它的点击量是多少?
浏览 3
提问于2014-12-30
得票数 0
回答已采纳
1
回答
网站已启动并运行,但解析它会导致HTTP错误503
、
、
、
我想用urllib2库抓取一个网页,并根据我的需要提取一些信息。我可以自由地浏览站点(从一个链接转到另一个链接,等等),但是当我试图解析它时,我得到了一个错误我在网上搜索了一下,发现这个错误发生在“网站的服务器当时不可用”的时候。服务器是否可能采取了某种措施来阻止对网页的解析
浏览 2
提问于2013-06-30
得票数 1
回答已采纳
1
回答
智能答疑引擎的AIML
、
、
、
、
我是一名网页开发人员,有一个使用
Python
2.7构建网页
爬虫
的网站,并为维基
百科
建立了索引.所以我想用
python
构建一个应答引擎,它使用一个字符串变量(它是一个包含整个维基
百科
的巨大变量)作为信息来源,并使用AI来回答.我可以在AIML中编写这种应答代理程序吗? 如果是,请提供教程的链接,其中告诉我如何做到这一点?
浏览 2
提问于2013-04-14
得票数 6
1
回答
网络
爬虫
-检查<a>标签与href是否在安莉标签使用美丽汤?
、
、
、
我正在用
Python
构建一个网络
爬虫
,使用漂亮的汤来抓取维基
百科
。问题是维基
百科
有很多垃圾链接,我不想看。它们的独特之处在于,它们总是出现在<li>标记中,具有某些类属性("nv-talk"、"nv-view"等),但是我的
爬虫
依赖于查看<a>标记,因此我无法访问包含它的<li>标记的属性。
浏览 2
提问于2014-04-13
得票数 1
回答已采纳
2
回答
colab研究google:我应该如何将jupyter笔记本的输出写入到我的google驱动器中
、
、
我正在为维基
百科
编写一个
爬虫
,希望将填充的结果写在csv中。有没有什么办法可以将我的程序生成的输出直接存储到Google电子表格中?
浏览 0
提问于2018-03-17
得票数 0
4
回答
//在<a>标记中意味着什么?
我正在写一个网络
爬虫
,我从维基
百科
开始测试它。然而,我注意到维基
百科
的许多链接都是以//开头的,所以从wikipedia.org到en.wikipedia.org的链接是指向//en.wikipedia.org的链接。这在实践中究竟意味着什么?
浏览 2
提问于2013-10-12
得票数 3
回答已采纳
2
回答
如何从维基
百科
中提取统计数据?
、
我想提取一份维基
百科
上所有死亡者的名单,并比较他们死亡时的年龄。维基
百科
上的所有死人都填写了以下字段:| birth_date = {{birth date|mf=yes|1847|02|11}}| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}} 我就得做个
爬虫
了?
浏览 0
提问于2011-07-24
得票数 1
回答已采纳
2
回答
与window.location.href的安全问题
、
、
、
在阅读了维基
百科
一篇关于网址重定向的文章后,我想知道window.location.href="page.php"是否是网页重定向的最佳选择。维基
百科
的文章指出 有什么需要我担心的吗?
浏览 8
提问于2012-10-06
得票数 2
回答已采纳
1
回答
维基
百科
爬虫
的口音
、
我试图用维基
百科
的
python
包从维基
百科
抓取"Muro de Berlín“,但是它不理解口音并且返回一个随机的页面。
浏览 2
提问于2016-12-11
得票数 0
3
回答
将选择的维基
百科
文章复制到自己的维基中?
、
、
、
有没有办法将维基
百科
上的某些文章(大约10000篇)批量复制到我自己的mediawiki站点上? 编辑:如何在不覆盖类似命名的文章/页面的情况下执行此操作?此外,我也不打算使用非法手段(
爬虫
等)
浏览 0
提问于2009-05-26
得票数 0
回答已采纳
3
回答
从维基
百科
挖掘群体
、
我是否应该使用
爬虫
来获取页面,并使用BeautifulSoup搜索这些页面? 或者,有没有其他选择可以从维基
百科
上获得同样的东西?
浏览 1
提问于2010-03-29
得票数 3
回答已采纳
1
回答
在维基
百科
文章之间寻找最危险的路径
、
、
、
我正在编写一个
python
爬虫
,以找到维基
百科
文章之间的路径。 我有一篇开始文章和一篇目标文章,我试图在它们之间找到一条捷径。
浏览 2
提问于2014-11-05
得票数 0
回答已采纳
1
回答
从维基
百科
转储中提取特定文章及其谈话页面
、
我是一个全新的网络
爬虫
。我有下面的维基
百科
转储链接。我有一份文章标题的清单。它们都是用英语写的。 我需要从给定的转储下载这些文章和他们的谈话页面。请让我知道从哪里开始。
浏览 3
提问于2020-08-02
得票数 0
4
回答
废弃维基
百科
,使用集群管理此数据[已关闭]
、
、
、
、
改进这个问题 我是一个
Python
开发人员,目前正在进行一个与NLP和NLTK相关的项目。在这个项目中,将需要大量的数据来进行事件分析。因此,我给出了两个问题 我在哪里寻找如此大量的数据。我的首选是维基
百科
,但我不知道如何访问它的数据?我需要抓取维基
百科
吗? 我应该如何组织所有这些数据,以便获得更好的搜索结果?K-means聚类会有用吗?
浏览 74
提问于2015-11-04
得票数 -1
1
回答
当建立一个搜索引擎网站
爬虫
,它应该开始爬行整个互联网?
、
我试图建立一个搜索引擎,其中一个主要组成部分是一个网络
爬虫
,我被困在一点,在开始的时候,
爬虫
将开始爬行。它需要一个网页来爬行。第一个网页应该是什么?
浏览 8
提问于2021-12-08
得票数 1
1
回答
不同的GloVe模型有什么不同?
、
、
或者说维基
百科
2014 + Gigaword 5比“普通
爬虫
”更有代表性?谢谢!
浏览 0
提问于2018-02-18
得票数 1
回答已采纳
1
回答
Nutch爬网在解析一个页面后停止
、
当使用nutch爬行时,它只解析一个页面,并且不向前移动。有谁能帮帮忙。下面是nutch的输出。[Naveen@01hw5189 apache-nutch-1.7]$ bin/nutch crawl urls -dir crawlwiki -depth 10 -topN 10crawl started in: crawlwikithreads = 10solrUrl=nu
浏览 1
提问于2013-09-12
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券