腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
包含异步内容的
博客
搜索引擎优化
seo
、
web-crawlers
我有一个
博客
网站,我想执行搜索引擎优化在它。我知道,最初的页面加载是最重要的网络
爬虫
。我理解它,因为网络
爬虫
不会等很久才离开页面。我担心,因为这是一个单独的异步操作,发生在页面加载之后,web
爬虫
将不会获取
博客
的内容,因此不会检测到关键字。在
爬虫
分析页面之前,有什么方法可以确保加载内容吗?为了
浏览 0
提问于2019-08-20
得票数 1
2
回答
如何用javascript编写这个
爬虫
?
ajax
、
javascript-events
、
javascript
当我在此表单中插入
博客
文章的链接时,javascript-crawler将搜索
博客
文章网页中的第一个图像(通过ajax ),将其显示在白色页面中,并将其保存在我的服务器上。这个
爬虫
就像Digg和Facebook-wall一样工作。 我必须为这个
爬虫
使用什么函数?
浏览 2
提问于2010-09-29
得票数 1
回答已采纳
3
回答
单页应用程序Web
爬虫
和SEO
javascript
、
python
、
django
、
single-page-application
我在前端使用框架将我的
博客
创建为单页面应用程序。为了进行查询,我在后端使用了rest API和Django。由于所有内容都是使用javascript代码呈现的,当
爬虫
访问我的
博客
时,它们看到的只是一个空页面。我正在考虑查看用户代理,每当用户代理来自
爬虫
时,我都会将页面的渲染版本提供给它,但我在实现上述方法时遇到了问题。为网络
爬虫
创建一个在后台SEO友好的rest API和Django的单页应用程序的最佳实践是什么?
浏览 0
提问于2017-08-16
得票数 1
1
回答
设置crawler4j指南
java
、
web-crawler
、
crawler4j
我想建立
爬虫
爬行一个网站,让我们说
博客
,并只获取我在网站中的链接,并粘贴在文本文件中的链接。你能一步一步地引导我安装
爬虫
器吗?我在使用Eclipse。
浏览 4
提问于2011-02-16
得票数 5
3
回答
如何重定向特定IP地址
javascript
、
php
、
html
、
web-crawler
我想重定向蜘蛛从访问我的
博客
。我正在寻找一个解决方案,可以嵌入到网页HTML,以便蜘蛛被重定向离开之前,影响我的页面访问量。比如说javascript,
爬虫
的IP地址,以及
爬虫
的引用url,这是可能的吗?
浏览 0
提问于2013-12-13
得票数 0
1
回答
Crawler登录到gmail电子邮件帐户
java
、
basic-authentication
我想写一个
爬虫
在Java中自动登录到gmail帐户。我的
爬虫
将获得登录Id和密码,并将登录到电子邮件帐户,并显示输出页面。我不清楚该怎么做。我曾尝试使用HTTP客户端将一些数据发布到
博客
,因此我熟悉它的基本GET和post方法。提前谢谢。
浏览 2
提问于2010-08-27
得票数 1
2
回答
在
python
中创建一个通用的web
爬虫
,用于像Flipboard这样的新闻聚合
python
、
web-crawler
为了实现这一点,我正在构建一个网络
爬虫
,它将抓取网站,以获取最近的新闻和帖子。我正在浏览上的一篇文章 Doll:它大多是通用/通用的。但我不确定如何从多个网站和
博客
中获取数据,这些网站和
博客
的结构完全不同。我想知道,我如何才能实现通过一个通用
爬虫
从数千个网站中获取数据的目标?
浏览 7
提问于2015-09-19
得票数 0
回答已采纳
1
回答
抓取像"/search/ label /“这样的
博客
标签url安全吗?
label
、
blogger
关于
博客
搜索引擎优化的问题,我能不能从
爬虫
中禁止像/search或/label这样的URL,我应该通过允许标记吗?
浏览 4
提问于2021-12-10
得票数 0
1
回答
防止机器人夸大我的读取/点击次数?
php
我认为我遇到了机器人和
爬虫
夸大我的阅读计数的问题(基本上是
博客
帖子上的点击计数器,每次刷新都会增加+1 )。 有没有办法过滤掉机器人和
爬虫
?
浏览 4
提问于2018-07-05
得票数 0
2
回答
Drupal首页和facebook
爬虫
6
、
social-network
我有一个drupal front_page,它可以编辑从
博客
到头版的所有匿名用户。但我希望facebook上的clawler能看到我的og: data,发布带有当前标题的评论。脸书
爬虫
获得了302的正面,并采取标题从头版。 我怎样才能(也许)做一个白名单给facebook
爬虫
获取og:来自受限区域的数据?
浏览 0
提问于2012-08-12
得票数 0
回答已采纳
1
回答
如何上传图片到
博客
博客
帖子?
python
、
api
、
upload
、
blogger
它允许轻松管理
博客
。问题是此API接受的内容是HTML内容。所以,我必须为它提供。标题..。我的问题是:我如何像
博客
用户界面那样将图片上传到google服务器,然后将它们集成到我的帖子中?
浏览 3
提问于2019-10-28
得票数 5
3
回答
<meta name="title">标记与<title></title>标记之间的差异
html
、
seo
、
meta
请澄清<meta name="title">标签和<title></title>标签之间的区别。<meta name="title" content="Page title">我观察到一些同时有<meta name="title">和<title></title>标签的站点,它们都是相同的,请确认一下。 如果我们没有使用&l
浏览 3
提问于2014-01-12
得票数 75
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
python
、
amazon-web-services
、
cron
、
crontab
、
amazon-elastic-beanstalk
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
2
回答
我可以抓取网站,下载特定的页面,并将呈现的版本保存为PHP中的PDF吗?
php
、
pdf
、
web-crawler
我只需要在这里澄清一下这个概念是否可行,或者我是否误解了
爬虫
的能力。假设1有一个100个网站/
博客
的列表,每天,我的程序(我假设它是
爬虫
的东西)会在它们中运行,如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配,它将继续下载该页面->,将其转换成一个包含全文这种类型的程序被称为
爬虫
,对吗? 我计划在代码的基础上构建
浏览 4
提问于2012-11-26
得票数 0
回答已采纳
1
回答
用户代理:媒体中介-谷歌是什么意思?
google
、
googlebot
、
web-crawlers
、
google-adsense
、
robots.txt
我正在浏览谷歌支持网站,他们说:User-agent: Mediapartners-GoogleDisallow: /有人能解释一下为什么我需要从我的
博客
网站上删除这两行吗?我在YouTube上看到一个家伙为了SEO的目的添加了这些行。
浏览 0
提问于2023-01-14
得票数 2
回答已采纳
2
回答
Scrapy从任何网站获取所有链接
python
、
python-3.x
、
scrapy
、
web-crawler
我有以下
Python
3中网络
爬虫
的代码:from bs4 import BeautifulSoup def get_links(link):我想在Scrapy中重新创建这个代码,这样它就可以遵守robots.txt,成为一个更好的网络
爬虫
。我在网上搜索过,我只能找到关于如何抓取特定域名的教程/指南/堆栈溢出/查询/
博客
文章(例如,allowed_domains=“google.com”)。我不想这样做。这不是什么大问题,但所有
浏览 3
提问于2018-02-23
得票数 9
1
回答
将具有动态生成名称的DynamoDB表导出到S3
amazon-s3
、
amazon-dynamodb
、
aws-glue
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
动态添加元标记
angular
、
seo
、
angular7
、
angular-universal
1 way (现在就在生产上):我(所有个人)的
博客
都作为单独的html文件发布,直接上传到S3桶(用于SEO目的),其中包括title、description和元标记。2 way (开发阶段):现在我正在集成routes,我所做的是从<url>/view-blog/{id}这样的角度路径为个人
博客
提供服务。this.blog.name); // Deal with error } 使用上面的代码,我们正在等待
浏览 0
提问于2019-04-09
得票数 3
2
回答
使用scrapy
python
的.net框架
c#
、
python
、
scrapy
、
ironpython
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫实践——简单爬取我的博客
用Python爬虫获取自己感兴趣的博客文章
爬虫学习(一):爬取静态博客(上)
Python爬虫入门3 爬虫必备Python知识
Python爬虫
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券