python 写爬虫_python写爬虫_python写网络爬虫 - 腾讯云开发者社区

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？

浏览 2提问于2013-03-20得票数 17

2回答

如何与python中的ror程序进行通信

、、、

我有一个使用rails进行CRUD操作的应用程序，它很方便所以我的问题是python如何与ror程序通信？

浏览 1提问于2010-12-27得票数 0

1回答

如何在python中创建基本语义搜索

、、、、

我想用Python写一个基本的语义网络爬虫，我知道语义应用程序使用RDF文件，但还有什么？我安装了一些Python RDF模块，并且开始学习它们是如何工作的。

浏览 0提问于2011-08-08得票数 5

回答已采纳

2回答

Python的地址解析器，如何拆分地址

、

我对Python非常陌生，但似乎相处得很融洽。我正在用Python写一个网络爬虫。我想自己弄清楚代码，但如果你愿意提供一个样本，我不会争辩。:)

浏览 2提问于2015-02-18得票数 0

1回答

什么是最好的服务器语言来编程一个网络爬虫？

、、、

我想问一下哪种语言：将是编写bes爬虫程序所需的be。谢谢

浏览 0提问于2012-01-01得票数 -2

回答已采纳

2回答

检查页面是否为python中的HTML页面？

我正在尝试为网络爬虫写一段python代码。我想检查我要抓取的页面是否是HTML页面，而不是像.pdf/.doc/.docx等那样的页面。在python中有什么好的方法吗？

浏览 2提问于2013-09-19得票数 3

1回答

从网站下载pdf后提交一个表单与美丽的汤

、、

我目前正在写一个爬虫脚本与python.I。我知道美丽的汤包，并已做了一些简单的crawlers.currently写一个网站的爬虫有四个下拉菜单，选择后，如果我按下下载按钮，一个pdf将被下载。

浏览 16提问于2016-09-25得票数 0

1回答

如何在windows上安装python-spidermonkey

我正在写一些使用python机械化的脚本。我遇到的一个问题是，很难找到哪些支持javascript的web客户端抓取或爬虫。我找到了一些，比如python-spidermonkey和pykhtml，但大多数都只在Linux上支持。我想用exe文件制作我的python脚本，所以我一定要安装在windows平台上。我的问题是，有没有在Windows上安装python-spidermonkey或pykhtml的方法？

浏览 0提问于2009-11-13得票数 0

3回答

高效网络爬虫的语言建议

、、、

我正在寻找一种语言来编写一个高效的网络爬虫。

浏览 6提问于2010-12-03得票数 2

2回答

如何用Python编写一个简单的爬虫？

、、

我已经试着写这个爬虫几个星期了，但是没有成功。对我来说，用Python编写代码的最佳方式是什么：4)将抓取的学校信息写入schools.csv文件你能帮我用Python写</em

浏览 0提问于2009-11-27得票数 1

回答已采纳

3回答

谷歌机器人信息？

、、

有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节？我很好奇它是用什么写的(我自己做了几个爬虫，现在正准备做另一个)，以及它是否能解析图像之类的东西。如果它都是用Python编写的，如果他们使用自己的库来做大多数事情，包括html/image/pdf解析，我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-

浏览 1提问于2010-04-14得票数 0

回答已采纳

1回答

响应前的Python* urllib2请求*

我正在尝试用python写一个快速爬虫，但我不想用线程。我读过一些文章，说Scrapy是单线程的，可以在响应返回之前发出请求。

浏览 0提问于2012-05-06得票数 0

1回答

ImportError:没有名为html.entities的模块

、、、、

我正在使用python2.7.5。我想写一个网络爬虫。为此，我安装了BeautifulSoup 4.3.2。我使用以下命令安装了它(我没有使用pip)我使用Eclipse4.2并安装了pydev。

浏览 4提问于2013-12-12得票数 1

回答已采纳

2回答

python icecast/shoutcast流代理添加了流派/歌曲名称/艺术家元数据？

、、、

所以我想写一个简单的python代理来添加元数据到流中。元数据来自一个从3FM网站抓取JSON的定期爬虫。你知道我该从哪里开始吗？

浏览 0提问于2012-09-12得票数 1

1回答

如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容？

、、、

我是一个相对新手的程序员，对PHP有很好的理解，但更多的是阅读，理解和复制我需要的部分，而不是从头开始开发。我已经查看了cURL，但似乎没有提供我正在寻找的东西，除非我遗漏了什么？

浏览 5提问于2013-02-21得票数 0

1回答

编写可与任何服务器保持登录状态的crawler

、、、、

我正在写一个爬虫。一旦爬虫登录到一个网站，我想使爬虫“停留-始终登录”。我该怎么做呢？客户端(如浏览器、爬虫等)使服务器遵守此规则吗？当服务器在一天内允许有限的登录时，可能会出现这种情况。

浏览 0提问于2009-11-26得票数 0

回答已采纳

4回答

使用Python的爬虫？

、、、

我想用python写一个爬虫。这意味着:我有一些网站的主页的网址，我希望我的程序爬行通过所有网站以下链接留在网站上。我如何才能轻松快速地做到这一点呢？

浏览 3提问于2011-07-11得票数 2

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

webkit crawler需要使用squid代理吗？

、、、

我正在用webkit写一个爬虫，webkit会缓存东西吗？我需要使用squid作为我的基于webkit的爬虫的代理吗？

浏览 0提问于2012-04-20得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python中的多线程爬虫真的可以提高速度吗？

如何在Python中从HTML页面中提取URL

如何与python中的ror程序进行通信

如何在python中创建基本语义搜索

Python的地址解析器，如何拆分地址

什么是最好的服务器语言来编程一个网络爬虫？

检查页面是否为python中的HTML页面？

从网站下载pdf后提交一个表单与美丽的汤

如何在windows上安装python-spidermonkey

高效网络爬虫的语言建议

如何用Python编写一个简单的爬虫？

谷歌机器人信息？

响应前的Python* urllib2请求*

ImportError:没有名为html.entities的模块

python icecast/shoutcast流代理添加了流派/歌曲名称/艺术家元数据？

如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容？

编写可与任何服务器保持登录状态的crawler

使用Python的爬虫？

在网站和独立应用程序中使用Django框架

webkit crawler需要使用squid代理吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐