腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
5
回答
Python中的多线程爬虫真的可以提高速度吗?
python
、
multithreading
、
gil
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
5
回答
如何在Python中从HTML页面中提取URL
python
、
url
、
web-crawler
我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢? 换句话说,有没有一个简单的python程序可以作为通用网络爬虫的模板?理想情况下,它应该使用相对简单的模块,并且应该包括大量的注释来描述每一行代码所做的事情。
浏览 2
提问于2013-03-20
得票数 17
2
回答
如何与python中的ror程序进行通信
python
、
web-services
、
rest
、
ruby-on-rails-3
我有一个使用rails进行CRUD操作的应用程序,它很方便 现在我想用python写一个爬虫程序,然后我想把数据保存到db中, 所以我的问题是python如何与ror程序通信?
浏览 1
提问于2010-12-27
得票数 0
1
回答
如何在python中创建基本语义搜索
python
、
search-engine
、
semantics
、
rdf
、
semantic-web
我想用Python写一个基本的语义网络爬虫,我知道语义应用程序使用RDF文件,但还有什么?我安装了一些Python RDF模块,并且开始学习它们是如何工作的。 你能向我介绍一下语义应用程序中使用的技术和技巧吗?
浏览 0
提问于2011-08-08
得票数 5
回答已采纳
2
回答
Python的地址解析器,如何拆分地址
python
、
parsing
我对Python非常陌生,但似乎相处得很融洽。我正在用Python写一个网络爬虫。 我已经让爬虫使用Beautiful Soup库工作,并希望找到最好的库来解析或拆分地址到它的组成部分。 以下是要解析的文本的示例。 ['\r\n\t \t\t \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t (828) 505-1638\t
浏览 2
提问于2015-02-18
得票数 0
1
回答
什么是最好的服务器语言来编程一个网络爬虫?
perl
、
coldfusion
、
asp
、
web-crawler
我想问一下哪种语言: ASP.NET / Ruby / CGI / Perl / Python /ColdFusion. 将是编写bes爬虫程序所需的be。 以及处理包含的信息? (它应该用于数据挖掘) 在运行时最快?最容易写?最容易maintain?<< 谢谢
浏览 0
提问于2012-01-01
得票数 -2
回答已采纳
2
回答
检查页面是否为python中的HTML页面?
python
我正在尝试为网络爬虫写一段python代码。我想检查我要抓取的页面是否是HTML页面,而不是像.pdf/.doc/.docx等那样的页面。我不想用扩展.html来检查它,因为asp、aspx或像这样的页面不会显式地.html扩展,但它们是.html页面。在python中有什么好的方法吗?
浏览 2
提问于2013-09-19
得票数 3
1
回答
从网站下载pdf后提交一个表单与美丽的汤
python
、
pdf
、
beautifulsoup
我目前正在写一个爬虫脚本与python.I。我知道美丽的汤包,并已做了一些简单的crawlers.currently写一个网站的爬虫有四个下拉菜单,选择后,如果我按下下载按钮,一个pdf将被下载。 post_data = { 'select name 1' : 'value 1', 'select name 2' : 'value 2', 'select name 3' : 'value 3', 'select name 4' : 'value 4', } r
浏览 16
提问于2016-09-25
得票数 0
1
回答
如何在windows上安装python-spidermonkey
python
我正在写一些使用python机械化的脚本。我遇到的一个问题是,很难找到哪些支持javascript的web客户端抓取或爬虫。我找到了一些,比如python-spidermonkey和pykhtml,但大多数都只在Linux上支持。 我想用exe文件制作我的python脚本,所以我一定要安装在windows平台上。 我的问题是,有没有在Windows上安装python-spidermonkey或pykhtml的方法?
浏览 0
提问于2009-11-13
得票数 0
2
回答
如何用Python编写一个简单的爬虫?
python
、
web-crawler
、
scrapy
我已经试着写这个爬虫几个星期了,但是没有成功。对我来说,用Python编写代码的最佳方式是什么: 1)初始url:http://www.whitecase.com/Attorneys/List.aspx?LastName=A 2)从初始url中选取以下正则表达式的url: hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler'
浏览 0
提问于2009-11-27
得票数 1
回答已采纳
3
回答
谷歌机器人信息?
c++
、
python
、
c
有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个爬虫,现在正准备做另一个),以及它是否能解析图像之类的东西。我假设它是这样做的,b/c images.google.com中的图像都被调整了大小。如果它都是用Python编写的,如果他们使用自己的库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
1
回答
响应前的Python urllib2请求
python
我正在尝试用python写一个快速爬虫,但我不想用线程。我读过一些文章,说Scrapy是单线程的,可以在响应返回之前发出请求。我想知道是否有任何示例代码可以对urllib或urllib2执行相同的操作,并在响应返回之前发出新的请求。 提前谢谢。
浏览 0
提问于2012-05-06
得票数 0
1
回答
ImportError:没有名为html.entities的模块
python-2.7
、
beautifulsoup
、
web-crawler
、
html-entities
、
importerror
我对蟒蛇很陌生。我正在使用python2.7.5。我想写一个网络爬虫。为此,我安装了BeautifulSoup 4.3.2。我使用以下命令安装了它(我没有使用pip) python setup.py install 我使用Eclipse4.2并安装了pydev。当我试图在脚本中导入这个库时 from bs4 import BeautifulSoup 我收到了这个错误 ImportError: No module named html.entities 请解释一下我该做些什么来纠正它。
浏览 4
提问于2013-12-12
得票数 1
回答已采纳
2
回答
python icecast/shoutcast流代理添加了流派/歌曲名称/艺术家元数据?
python
、
metadata
、
shoutcast
、
icecast
我正在收听3FM流,但不幸的是,它在aac/mp3/wma流中不提供音乐名称/艺术家信息。 所以我想写一个简单的python代理来添加元数据到流中。元数据来自一个从3FM网站抓取JSON的定期爬虫。 你知道我该从哪里开始吗?
浏览 0
提问于2012-09-12
得票数 1
1
回答
编写可与任何服务器保持登录状态的crawler
c#
、
python
、
http
、
session
、
web-crawler
我正在写一个爬虫。一旦爬虫登录到一个网站,我想使爬虫“停留-始终登录”。我该怎么做呢?客户端(如浏览器、爬虫等)使服务器遵守此规则吗?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
4
回答
使用Python的爬虫?
python
、
beautifulsoup
、
web-crawler
、
bots
我想用python写一个爬虫。这意味着:我有一些网站的主页的网址,我希望我的程序爬行通过所有网站以下链接留在网站上。我如何才能轻松快速地做到这一点呢?我已经试过BeautifulSoup了,但它真的很耗费cpu,而且在我的电脑上也相当慢。
浏览 3
提问于2011-07-11
得票数 2
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
python
、
django
我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
webkit crawler需要使用squid代理吗?
python
、
webkit
、
web-crawler
、
squid
我正在用webkit写一个爬虫,webkit会缓存东西吗?我需要使用squid作为我的基于webkit的爬虫的代理吗?
浏览 0
提问于2012-04-20
得票数 1
回答已采纳
1
回答
爬行,爬行,获取数据
network-scan
我想写一个爬虫来做一些基础设施(路由器,WAPS,系统等)的清单。 所以我理解爬虫,实现是另一回事。 所以,我在服务器上安装了一个应用程序,以及如何部署它。爬虫是怎么开始的?比如说我想盘点未知子网等等? 爬虫是如何返回数据的?
浏览 5
提问于2008-12-05
得票数 0
5
回答
有哪些好的基于Ruby的网络爬虫?
ruby
、
web-crawler
我正在考虑写我自己的,但我想知道是否有好的网络爬虫在那里是用Ruby编写的。 除了一个成熟的网络爬虫,任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
2
回答
面向爬虫的响应式Web设计检测
python
、
responsive-design
、
mechanize
、
web-crawler
我正在写一个网络爬虫,但我只关心响应式网页设计(RWD)的页面。是否有迹象表明该站点正在响应?我使用的是python中的mechanize模块。我能想到的唯一一件事就是在html中添加如下内容 href="css/bootstrap.min.css" 或 class="row-fluid" 或者表示百分比而不是像素的东西。 任何帮助都将不胜感激。
浏览 2
提问于2013-07-11
得票数 0
回答已采纳
1
回答
从整个WebSite中提取所有URL
c#
、
vb.net
、
web-crawler
我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址,我也希望爬虫遵循网址,以便我能够从网站中提取所有的网址。 我该怎么写呢?
浏览 1
提问于2011-04-06
得票数 0
2
回答
如何编写scrapy哪个start_url是前一个爬行器的输出?
python
、
scrapy
、
sitemap
我写的sitemap scrapy如下: class filmnetmapSpider(SitemapSpider): name = "filmnetmapSpider" sitemap_urls = ['http://filmnet.ir/sitemap.xml'] sitemap_rules = [ ('/series/', 'parse_item') ] def parse_item(self, response): vid
浏览 2
提问于2018-07-04
得票数 0
1
回答
HtmlUnit与HttpUnit的性能比较
htmlunit
、
http-unit
我想写爬虫,支持cookie存储操作和会话。java无头浏览器有两种不同的实现方式。HtmlUnit对javascript和html解析有更好的支持。但是,有什么理由使用HttpUnit来提高爬虫的性能呢?
浏览 1
提问于2011-08-28
得票数 2
1
回答
在列表之间提取Web爬虫
python
、
parsing
、
web-scraping
、
beautifulsoup
、
html-parsing
我在用python写一个网络爬虫。我希望获得<li> </li>标记之间的所有内容,.For示例: <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li> 所以在这里我想: (a.)提取日期并将其转换为dd/mm/yyyy格式。 (B)前面的数字。 soup = BeautifulSoup(page1) h2 =soup.find_all("li") count = 0 while count <
浏览 2
提问于2015-01-07
得票数 1
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
python
、
user-interface
、
tkinter
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
3
回答
将数据从PHP脚本传递到Python Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
python
、
git
、
github
、
scrapy
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
Crawler登录到gmail电子邮件帐户
java
、
basic-authentication
我想写一个爬虫在Java中自动登录到gmail帐户。我的爬虫将获得登录Id和密码,并将登录到电子邮件帐户,并显示输出页面。我不清楚该怎么做。我曾尝试使用HTTP客户端将一些数据发布到博客,因此我熟悉它的基本GET和post方法。 谁能告诉我如何编写爬虫登录到gmail电子邮件帐户?任何回应都将不胜感激。 提前谢谢。
浏览 2
提问于2010-08-27
得票数 1
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
html-parsing
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
在命令行中运行ActiveX控件?
internet-explorer
、
activex
我正在写一个网络爬虫。不幸的是,要爬行的站点非常旧,并且它使用了一些ActiveX控件。 我希望我的爬虫在命令行中运行,或者至少不加载整个Internet Explorer。有没有可能在命令行中运行ActiveX控件?
浏览 1
提问于2014-12-25
得票数 0
3
回答
使用Chickenfoot保存PDF文件
chickenfoot
我正在写一个网络爬虫使用鸡脚,并需要保存PDF文件。我既可以单击页面上的链接,也可以抓取PDF的URL并使用 go("http://www.whatever.com/file.pdf") 我看到火狐的“打开file.pdf”对话框,但不能点击“确定”按钮来实际保存文件。 我尝试过使用其他方法下载这些文件(wget、python的urllib2、twill),但是PDF文件都是门控的,所以这些方法都不起作用。 任何帮助都是非常感谢的。
浏览 1
提问于2010-12-04
得票数 0
1
回答
使用Scrapy和selenium抓取网站
python
、
selenium
、
scrapy
我打算用Scrapy在上抓取html内容。 但是,由于站点的Javascript使用和#,我想我也必须使用Selenium (Python)。 我想写我自己的代码,但我是编程新手,所以我想我需要帮助; 我想先进入ntry.com,然后单击一个名为的锚点转到 <body> <div id="wrap"> <div id="container"> <div id="content"> <a href="/sco
浏览 2
提问于2016-11-26
得票数 0
1
回答
使用无限滚动页面的爬虫
javascript
、
ajax
、
web-crawler
、
infinite-scroll
我正在寻找一个爬虫应用程序,扫描页面的javascript的AJAX请求,并寻找函数,执行AJAX调用,从而获得整个内容从头到尾。 我会自己写一些东西,但我现在真的很忙,我想也许有人已经做了一个这样的爬虫。 在那里吗?
浏览 2
提问于2013-05-31
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
python
、
web-crawler
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
如何提取我的爬虫目前所站的网址?
python
、
scrapy
、
web-crawler
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
用于提取和解析数据并将其保存到数据库的Web爬虫
php
、
web-crawler
我希望将一些网站的内容复制到本地数据库中,以便进一步进行个性化搜索。我知道我必须使用爬虫,我找到了一些关于scrapy的很好的参考资料。 我的问题是,你知道有没有用PHP写的好的爬虫。
浏览 0
提问于2013-04-16
得票数 0
回答已采纳
1
回答
Python web爬行和存储到mysql
python
、
web-crawler
我需要一个好的网页爬虫编写的Python,以存储完整的网页到mysql数据库。我正在试验的小型系统现在使用PHP Sphider爬行并存储到数据库中。我需要一些几乎精确的东西,比如sphider,但是用Python写。因此,只需将数据库存储到表中,从其他脚本获取内容并完成我需要的其余工作。Sphider很慢,想要替换它。 所以,我看了刮刮和其他一些项目,但是任何东西都没有满足我的需要,这是我在开始编写代码之前的最后一次尝试,所以如果有人知道什么可以解决我的问题,请告诉我。
浏览 3
提问于2010-10-25
得票数 1
2
回答
木偶人爬行器大规模爬行
web-crawler
、
puppeteer
、
google-chrome-headless
我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
1
回答
分布在不同地理位置的爬虫
python
、
web-crawler
、
nutch
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
3
回答
以编程方式下载页源中未显示的文本
javascript
、
python
、
html
、
web-scraping
、
web-crawler
我在用Python写爬虫。给定一个网页,我以以下方式提取它的Html内容: import urllib2 response = urllib2.urlopen('http://www.example.com/') html = response.read() 但是一些文本组件不显示在Html页面源中,例如在中(重定向到索引中,请访问其中一个日期并查看特定的邮件)如果您查看页面源,您将看到邮件文本没有出现在源中,而是似乎是由JS加载的。 如何以编程方式下载此文本?
浏览 0
提问于2015-02-18
得票数 1
回答已采纳
1
回答
Python站点爬虫,使用Scrapy保存文件
python
、
jsp
、
web-crawler
、
scrapy
我正在尝试编写一个爬虫,它将接受某个搜索条目,并保存一大堆与结果相关的.CSV文件。 我已经让爬虫登录了,解析了我需要的所有html数据,现在我要做的就是弄清楚如何保存我需要的文件。 因此,搜索返回如下的链接 然后在web浏览器中提示您保存相关的.csv文件。我如何写我的爬虫能够加载这个页面和下载文件?或者,有没有一种方法可以捕获指向信息的静态链接?
浏览 0
提问于2011-08-19
得票数 2
1
回答
Web Crawler的常用输出格式
web-crawler
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
python
、
web-crawler
、
mechanize
、
robots.txt
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
1
回答
asp.net站点的PHP爬虫
php
、
web-crawler
我想写一个爬虫来获取数据。来自使用javascript进行分页的asp.net站点
浏览 0
提问于2010-10-31
得票数 0
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
python
、
cron
、
web-crawler
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
python
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
网络爬虫是如何影响网站统计的?
web-crawler
网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么? 例如: 很多人在写网页爬虫时经常会删除自己的cookie并屏蔽他们的IP,所以每次抓取网站时,爬虫者都会以不同的用户身份出现吗? 什么是启发式来识别某物是一个机器人?(我猜任何足够复杂的机器人都可能与真正的用户无法区分,如果它想要的话-这是正确的吗?) 为了澄清,基于以下评论:我也感兴趣的情况下,我的网站是具体的目标(可能是非法爬虫)。
浏览 3
提问于2010-04-12
得票数 1
回答已采纳
3
回答
如何检测文本文档之间的重复,并返回副本的相似度?
algorithm
、
information-retrieval
、
text-analysis
我正在写一个爬虫从一些网站获取内容,但内容可以重复,我想避免这种情况。因此,我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容--可能是重复的示例: 课文1:“我在写爬虫给” 课文2:“我正在写一个文本爬行器来获取” 比较函数将文本2作为同一文本返回1乘5/8%(5为文本的字数2相同的文本1(按词序比较),8为文本2的总单词2)。如果删除“一些文本”,那么文本2与相同的文本1(我需要检测情况).How我可以这样做吗?
浏览 2
提问于2014-04-14
得票数 5
10
回答
如何编写爬虫?
web-crawler
我曾经想过尝试写一个简单的爬虫,它可以爬行,并为我们的NPO的网站和内容生成一个搜索结果列表。 有没有人对如何做到这一点有什么想法?你从哪里开始抓取爬虫?它是如何传回它的发现并继续爬行的呢?它如何知道它找到了什么,等等。
浏览 5
提问于2008-09-19
得票数 64
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从零开始写python爬虫
听说用python写的 爬虫很强
零基础开始写Python爬虫心得
杭州Python在写爬虫方面有哪些优势?
微软工程师教你用Python写爬虫
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券