腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
如何使用php脚本抓取rss提要内容
、
我想从一个网站抓取RSS提要内容,并使用不同的过滤选项将其显示在我的网站中。 有没有人可以放一个php脚本,从那里抓取内容并显示
浏览 0
提问于2010-10-18
得票数 5
回答已采纳
2
回答
我可以使用WGET生成一个网站的网站地图吗?
、
、
、
我需要一个脚本,可以蜘蛛的网站,并返回所有抓取的网页列表的纯文本或类似的格式;我将提交给搜索引擎作为网站地图。我可以使用WGET来生成一个网站的网站地图吗?或者有没有PHP脚本可以做同样的事情?
浏览 0
提问于2010-10-16
得票数 16
回答已采纳
1
回答
如何使用AJAX测试我在Google上的爬虫能力?
、
我创建了我的网站,所以 site.com/#!/page/var1/ans1/var2/ans2 映射到 site.com/pages/page.php?var1=ans1&var2=ans2 使用Javascript。我也做到了 site.com?_escaped_fragment_=/page/var1/ans1/var2/ans2 映射到 site.com/pages/page.php?var1=ans1&var2=ans2 使用PHP,所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了,它似乎可以工作。然而,我尝试过测试我的网站的所有其他非谷歌蜘蛛都
浏览 0
提问于2011-07-30
得票数 1
回答已采纳
3
回答
如何使用Perl从网站下载链接目标?
、
、
我刚刚编写了一个脚本,从网站抓取链接,然后将它们保存到一个文本文件中。 现在我正在处理我的正则表达式,所以它将从文本文件中抓取url中包含php?dl=的链接: 例如:www.example.com/site/admin/a_files.php?dl=33931 当你将鼠标悬停在网站上的dl按钮上时,它几乎就是你得到的地址。你可以点击下载或者“右键点击保存”。 我只是想知道如何做到这一点,必须下载给定地址的内容,这将下载一个*.txt文件。当然,这一切都来自于脚本。
浏览 4
提问于2010-07-06
得票数 5
回答已采纳
1
回答
如何在Laravel 5中抓取ajax站点?
、
、
、
、
我想抓取一个分页的ajax加载的网站。我正在使用在laravel 5中爬行。Goutte可以做到吗?我尝试了以下代码, $link = $crawler->selectLink('Next>')->link(); $crawler = $client->click($link); 但它不起作用。如何使用PHP/ Laravel 5抓取ajax站点?
浏览 0
提问于2015-05-28
得票数 0
1
回答
如何找到Googlebot爬行URL的引用者?
、
、
、
Googlebot从我的网站上抓取了404个URL。我想知道从哪里得到这些链接? 有类似HTTP引用的东西吗? 详细信息: Googlebot爬行 example.com/no_such_files.php example.com/not-there/no_such_files.php 我想知道Googlebot是从哪里得到这些链接的?我最近看到了很多像上面这样的URL。
浏览 0
提问于2017-12-12
得票数 3
2
回答
将URL结构更改通知Google
、
、
、
、
我有一个网站,网址是这样建造的: /index.php/Topic /index.php/AnotherTopic 这些都是在谷歌的索引和返回的搜索结果指向这些。 不过,我最近升级并重新配置了网站,现在URLS看起来如下: /index.php?title=Topic /index.php?title=AnotherTopic 原始URLS返回404。该网站内部链接到正确的URL结构,但谷歌在其搜索结果中保留了旧的URL。我已经更新并重新提交了站点地图,它只包含新的URL结构。此外,谷歌的网站管理员工具在抓取结果中出现404个错误,这让人有点恼火。 让Google删除旧URLS的最佳方法是什么
浏览 0
提问于2012-11-30
得票数 4
1
回答
包括使用PHP的子文件夹页的头
我正在使用PHP包含,以便包括页眉和页脚到所有网站页面。这是很好的工作,除非我是冲浪的顶层网页,这是‘索引’和‘约’,例如。在较低级别的页面上,即“product1”和“product2”包括工作,但不抓取样式。我可以通过为内部页面创建额外的页眉和页脚来解决这个问题,在这些页面中,我将将样式链接从"styles.css“更改为”./styes.css“,但我希望找到另一种解决方案,只保留一个页眉和一个页脚。是否有办法这样做? 网站结构 -assets -includes header.html footer.html +css +js -products
浏览 0
提问于2016-02-21
得票数 2
回答已采纳
1
回答
Google网站管理员工具爬行网站错误增加而不是404错误
、
、
Google检测到返回404错误(未找到页面)的URL数量显著增加。调查这些错误,并在适当的地方修复它们,确保Google能够成功地抓取站点的页面。 让我知道为什么谷歌在抓取该网站时会出现这样的错误。我想提醒大家,由于我已经重写了.php页面的规则 我在哪里做错了网页和内容之间的内部链接?因为我已经更新和纠正链接后,从网站管理员工作人员团队收到这条消息。 请检查和调查内部链接,并确认我是否再次错过了什么? 好心的建议。 我会感激的。
浏览 3
提问于2013-11-30
得票数 1
回答已采纳
2
回答
除非启用了Javascript,否则使用php函数
、
、
我有一个网站,将抓取新的数据在第一页访问。我想使用AJAX来做这件事,这样我就可以在抓取过程中向用户提供至少一些loading.gifs,但这只有在启用了Javascript的情况下才能实现。 我的站点使用了一个PHP模板引擎,所以我想把抓取函数放在html模板的<noscript>标记中。因为这将在所有PHP代码之后发生,所以我必须重新加载页面,以便可以使用PHP呈现/解析抓取的数据。 这种方法看起来有点草率,我想知道是否有有效的方法来做到这一点。
浏览 0
提问于2011-01-16
得票数 1
2
回答
如何抓取jquery支持的网站?
、
、
、
我正在构建一个单一页面javascript驱动的网站。我拥有所有页面的所有必要数据,在我的主页上使用php作为json对象进行回显。然后,我使用为每个页面创建的自定义插件初始化页面,该插件使用相关的json数据动态构建dom,并将这些数据传递给插件,因此没有任何ajax请求。在我的网站上的链接是以下格式!#关于,#主页,等等.目前,插件的init方法在hashchange上被调用。我应该做些什么来使这些页面可以被google机器人抓取,以及如何为每个页面制作不同的标题和描述元标记? 我尝试过在谷歌文档和许多其他网站上找到的各种东西。我已经将链接从#mylink更改为#!mylink,所以goo
浏览 2
提问于2012-11-26
得票数 0
2
回答
搜索引擎机器人是否只通过查询字符串中参数的值来爬行不同的动态URL?
、
我知道有很多类似的问题,我四处寻找,但我从来没有找到完全的答案,所以下面是我的问题: 搜索引擎机器人会抓取我的动态生成的URL吗?因此,我指的是由php基于url中的GET变量生成的html页面。链接将如下所示: www.mywebsite.com/view.php?name=something www.mywebsite.com/view.php?name=somethingelse www.mywebsite.com/view.php?name=something 我试着用下面找到的测试爬虫爬行我的网站:http://robhammond.co/tools/seo-crawler,但是
浏览 0
提问于2015-02-06
得票数 4
回答已采纳
2
回答
带参数进入时加载主页
、
、
、
我有一个基于WordPress的网站,使用Fancybox v.2在弹出窗口中显示帖子。显然,触发Fancybox的唯一方法是使用某些回调类单击a标记。 所以就是这样: <a href="<?php echo home_url(); ?>/?p=<?php the_ID(); ?>" class="filmloop various fancybox.iframe"> 但是,当我直接通过固定链接返回网站时,它会将single.php作为一个单独的页面加载,而没有弹出窗口。所以方法是把参数放在直接的URL中,当返回重载页面时抓取它
浏览 0
提问于2013-08-20
得票数 0
1
回答
php dom xpath从站点中的所有文件夹中提取所有链接
、
、
我已经在stackoverflow和网络上搜索过了,一定是这里漏掉了什么。我还没有找到我要找的东西。也许它叫别的什么..我有下面的代码,它将抓取第一个文件夹中的所有内容,但不会从其他文件夹中抓取其他项目。例如,它会抓取第一个/前面的所有内容,但如果你有一个站点mysite.com/ folder2 /,它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站,我正试图废止。 <?php function storelink($web,$taken) { $
浏览 0
提问于2013-02-19
得票数 0
1
回答
PHP网络爬虫
、
我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接,并告诉我,如果链接被打破。 到目前为止,我已经尝试在这里修改了一个例子。我也试过抓取phpDig,但是网站宕机了。任何关于我应该如何进行的建议都是很棒的。 编辑 问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情,以避免服务器过载,有人可以详细说明一下这个问题吗?
浏览 0
提问于2011-04-12
得票数 0
1
回答
使用简单的Html Dom通过ajax动态加载Div的内容
、
、
、
、
我想从其他网站页面上抓取数据,这些页面动态加载表格的数据。我正在使用Php和简单的Html Dom进行抓取,搜索后没有找到任何解决方案,如何从网页中抓取动态数据?或者有另一种方法可以做到这一点? 我必须从这个url->中抓取表数据。 我使用下面的代码来做这件事。 $url = "https://fantasy.premierleague.com/a/leagues/standings/313/classic"; $html = file_get_html($url); $html->find('div#ismr-classic-standings')
浏览 3
提问于2016-08-23
得票数 2
2
回答
如何更长时间地运行PHP进程
、
、
、
我正在用php和curl进行web抓取来销毁整个网站。 但是要完成刮除的过程需要一天以上的时间。 我甚至用过 ignore_user_abort(true); set_error_handler(array(&$this, 'customError')); set_time_limit (0); ini_set('memory_limit', '-1'); 在抓取页面后,我还清除了内存。我正在使用简单的html DOM从页面中获取抓取细节。 但进程仍然会运行,并在一定数量的链接上正常工作,之后它会停止,尽管进程会继续在浏览器中循环,并且不
浏览 1
提问于2015-01-20
得票数 0
3
回答
使用Python抓取URL链接
、
、
下面是我的代码: from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Firefox() url = 'https://www.coteur.com/cotes-foot.php' driver.get(url) links = driver.find_elements_by_xpath('//a[contains(@href, "match/cotes-")]') driver.close() 我想从这个网站上抓取所有与足球比赛相
浏览 41
提问于2020-06-16
得票数 0
回答已采纳
1
回答
我如何让谷歌重新抓取我的网站,并只索引我的新网址?
、
当我在Google上搜索我的网站时,我会得到这样的URL:http://example.com/article.php?movie=150 我的新网址是:http://example.com/online-stuff/150/title-of-article 我如何让谷歌重新抓取我的网站,并只索引我的新网址?
浏览 0
提问于2018-03-02
得票数 1
回答已采纳
5
回答
如何使用Ruby、PHP或Java解析/过滤/提取ASP.net网站内容?
、
、
、
、
我正在做一个业余爱好项目,用Ruby或PHP或Java抓取ASP.net网站的内容。例如,如果网站url为“www.myaspnet.com/home.aspx”。我想从home.aspx中提取unicode文本内容并将其粘贴到记事本。有没有上述语言版本的库?有没有人可以通过提供合适的资源来帮助我。 谢谢!
浏览 0
提问于2009-09-17
得票数 0
回答已采纳
2
回答
如何存储从网页抓取的数据
、
我想在我的web应用上建立一个教育搜索引擎,所以我决定使用PHP从我的网页上抓取大约10个网站,并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中?
浏览 0
提问于2011-05-07
得票数 1
1
回答
从其他网站拉取数据
、
、
、
我正在建设一个疑难解答网站,并正在寻找一种方法,以拉信息直接从OEM网站。一个例子是直接来自HTC的Droid DNA的主重置指令。我知道我可以使用iFrame,但如果HTC更新了URL,iFrame就会失效。在JS中有没有一个脚本可以自动“抓取”这些OEM站点?我已经看过很多用PHP编写的例子,但是我想找一个用HTML或JS编写的解决方案。
浏览 1
提问于2013-08-04
得票数 0
1
回答
如何用PHP填写“用户名”和“密码”字段?
、
我想抓取统计从一个附属网站与php。我是php的新手,但我知道如何从网站上抓取数据,但是会员网站需要你先登录。 如何在php中填写用户名和密码并按下登录按钮?有没有可能用php来做这件事,或者我需要另一种编程语言来做?
浏览 0
提问于2013-02-19
得票数 1
回答已采纳
1
回答
使用python请求下载Mp4
、
、
所以,我一直在做一个网络抓取脚本,从一个特定的网站下载一个视频,我做了,抓取网站,并有视频来源。这个视频有一个play botton,我试过在它上面使用selenium,但是我不知道如何使用selenium执行下载。我还试过其他密码 wget.download('http://wwwstatic.chia-anime.tv/player.php?id=96576') 我还试过使用请求库iter工具,但只下载14.4kb 另外,我观察到播放视频的直接链接(上面的链接)有一个点击按钮,当点击它时,它会向另一个站点发送一个网络请求,但是我不知道如何复制它。 请帮帮忙
浏览 7
提问于2020-03-18
得票数 1
1
回答
如何用PHP检索html链接中的多个文件?
、
我使用使用模板的代码重构来分割我的网站。 当我在我的nav.php文件中构建一个基本的链接时,或者我想在站点上的任何地方都是这样的,我需要抓取多个文件,因为这个站点是模板的--让我们假设这个例子中的用户将要使用services.php。 我相信我需要将所有这些文件都附加到链接中: header.php nav.php pages/services.php footer.php 我如何构建一个链接来实现这一点呢?我是否可以创建某种数组并将所有文件附加到链接中,然后用foreach语句循环数组,并将结果放在echo中?
浏览 1
提问于2011-10-30
得票数 0
回答已采纳
1
回答
如何让我的angular js网站在搜索引擎上可抓取??
、
我想让我的angular js网站可被搜索引擎抓取。 我的网站没有被谷歌抓取??
浏览 1
提问于2016-02-14
得票数 0
1
回答
无法使用POST获取页面
、
我在一个政府网站上:,当我点击Select (如图中蓝色矩形所示)时,它会获取一些数据。我想从我的PHP程序中完成这个“抓取”。我已经使用Firebug抓取了帖子数据。但它未能获得相同的数据。我试着删除参数等,但都不起作用。该站点返回错误“对不起,本站点遇到严重问题,请尝试重新加载页面或联系站长。” 有什么想法吗--我怎么才能以编程方式获取这个值? 这是我使用的源代码:。Curl代码工作正常,因为我已经测试了另一个POST请求。
浏览 0
提问于2013-04-08
得票数 0
1
回答
抓取和爬行-发布令牌
、
我是个抓取和爬行的新手。为了一个研究项目,我正在尝试抓取和爬行社交网站: 此站点有一个接口: 它说这是你发布令牌的方式: curl -X POST -sku "vaughn:**********" https: //foundation.iplantc.org/auth-v1/ | python -mjson.tool 我正在尝试使用php在wikiscraper的帮助下获得身份验证,并进入网站,这样我就可以抓取它。我有一个困难的时间获得认证和进入网站。我把上面的命令放在命令行上,然后返回: curl: No match. python: module json.tool no
浏览 1
提问于2011-11-30
得票数 2
1
回答
如何解析使用无限滚动技术显示内容的网站?
、
、
我怎么才能把所有的数据都刮掉?我正在编写一个php脚本,从一个有动态加载器的网站上抓取数据。我正在使用HTML解析器和铲子刮刮下面的网站。我是初学者,我无法识别如何解析无限滚动。 <input id="btnNextPage" type="button" class="btn btn-primary" style="width: 100%" value="Next page">
浏览 1
提问于2015-07-11
得票数 2
回答已采纳
4
回答
如何抓取包含无效HTML的网站
、
我正在尝试从一个包含无效HTML的网站中抓取数据。会对其进行解析,但由于其处理无效超文本标记语言的方式而丢失了一些信息。内置的带有DOMXPath的DOM解析器不工作,它返回一个空的结果集。我能够让它(DOMDocument和DOMXPath)在通过PHP Tidy运行获取的HTML后在本地工作,但PHP Tidy没有安装在服务器上,而且它是一个共享托管服务器,所以我无法控制它。我尝试过,但这似乎只是为了保护用户输入,因为它完全删除了doctype、head和body标记。 PHP Tidy有没有一种独立的替代品?我真的更喜欢使用DOMXPath来浏览和获取我需要的东西,它似乎只是在解析之前需
浏览 1
提问于2010-10-09
得票数 2
回答已采纳
1
回答
抓取问题(data-reactid)
、
、
、
、
我正在尝试抓取一个网站,并根据我提取的数据编辑一个电子表格。 我要抓取的网站是。 我对抓取没有太多的经验,但我的方法是在html标签中找到独特的属性,并用它来抓取我想要的东西。 所以对于这个网站,我的方法是首先抓取页面的URL列表,当你点击其中一个体验时,例如:, 其次,在这个列表中循环,每次都要抓取相关的属性。然而,我被困在了第一步,因为我遇到的不是简单的"a href“标签,而是"data-reactid”标签,这会让事情变得混乱。 我使用iMacros进行抓取,但我现在对Java语言相当在行,所以如果需要的话,我会学习用Java语言进行抓取(这似乎很有可能,因为iMacr
浏览 2
提问于2015-04-30
得票数 2
2
回答
scrapy -如果关注无限网站,则终止爬行
、
、
、
假设我有一个像这样的网页。 counter.php if(isset($_GET['count'])){ $count = intval($_GET['count']); $previous = $count - 1; $next = $count + 1; ?> <a href="?count=<?php echo $previous;?>">< Previous</a> Current: <?php echo $count;?>
浏览 9
提问于2018-10-29
得票数 3
2
回答
如何:在服务器中每24小时执行一段代码?
、
、
、
我想每24小时从网站获取某些数据。代码必须每24小时执行一次,并更新MySQL数据库。如何才能在没有任何用户事件的情况下完成此任务? 稍后,我将使用相同的数据来找出总的差异。 totalIncrement = currentData - earlierData 而从MySQl数据库中获取earlierData,并且从外部网站查询中获取当前数据。 我听说过linux上的cron,但从未尝试过。有没有人能给出一个基本的概念?或者任何可靠的链接? 也许我想这样做:: 首先,创建一个执行抓取工作的PHP程序/文件。然后每24小时左右执行一次PHP文件...
浏览 0
提问于2011-08-20
得票数 6
6
回答
如何知道被抓取的网站是否发生了变化?
、
、
我正在使用PHP抓取一个网站并收集一些数据。无需使用正则表达式即可完成所有操作。我使用php的explode()方法来查找特定的HTML标记。 如果网站的结构发生变化(CSS、HTML),那么抓取器可能会收集错误的数据。所以问题是-我如何知道HTML结构是否发生了变化?如何在将任何数据存储到我的数据库之前识别这一点,以避免存储错误的数据。
浏览 1
提问于2010-03-28
得票数 8
回答已采纳
2
回答
如何在网站抓取中搜索任何网站
、
、
、
、
我正在从事一个使用DOM解析从网站抓取数据的项目。它可以使用页面url从特定网站提取数据。 我想添加功能来传递一个php变量到该网站的搜索框。并搜索该查询。当用户在网站搜索框中手动输入一个值并按下搜索时,结果就出来了,我们选择该结果。我想通过编程的方式来做这件事。 如何将php变量传递到网站搜索框并在该网站上进行搜索?
浏览 1
提问于2016-03-07
得票数 0
5
回答
谷歌什么时候会重新抓取一个网站?
、
谷歌什么时候会重新抓取一个网站?为什么Google在Cache中有同一页面的两个版本?? forum.portal.edu.ro/index.php?showtopic=112733&st=25/ forum.portal.edu.ro/index.php?showtopic=112733&st=50为:缓存页
浏览 14
提问于2009-08-04
得票数 0
回答已采纳
2
回答
关于从互联网上抓取/抓取/收集音频内容的最佳方法的建议/提示
、
、
、
、
实际上我要做的是弄清楚BEEMP3.COM是如何工作的。 由于网站的速度,我怀疑他们在现场抓取了其他网站/资源。他们可能使用某种类型的数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索条件。 我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的?他们必须有一些算法,以蜘蛛的互联网或使用谷歌的索引mp3技巧找到主机与原始的mp3文件。 如有任何意见、建议或想法,欢迎使用:)
浏览 2
提问于2010-12-15
得票数 2
回答已采纳
4
回答
抓取整个Typo3网站作为静态站点
我可以下载/抓取整个Typo3网站作为一个静态站点来运行它而不需要一个PHP和一个数据库吗?我只想把这个快照作为一个普通的HTML站点运行。
浏览 2
提问于2014-10-09
得票数 3
回答已采纳
2
回答
搜索引擎的典型爬行深度
、
当一个网站被搜索引擎(google,bing等)抓取时,搜索引擎抓取一个网站的最大深度是多少?我所说的深度,是指从主页开始的跳数。 谢谢,
浏览 1
提问于2012-07-13
得票数 0
3
回答
有没有办法用php从网站上搜索和检索第一张图片?
有没有办法在另一个网站上使用php搜索图片并检索它的网址,就像使用get_meta_tags,或者像facebook的微出版商一样,当你粘贴一个网址到里面时,它会抓取一个与该网站相关的图片,有没有办法做到这一点?任何帮助都将不胜感激。
浏览 0
提问于2011-03-25
得票数 0
回答已采纳
1
回答
Facebook共享调试器抓取主页URL,而不是Angular 6中给定的URL
、
、
Facebook共享调试器工具抓取了错误的页面。 我给了一个完整的网址与slug (指向我的网站上的个人网页),我希望它通过facebook分享按钮。它不是抓取我想要的页面,而是抓取我网站的主页。 我想让它刮掉https://example.com/slug 相反,它抓取了https://example.com 我已经使用以下代码更新了og:url的meta标记 this.meta.updateTag({ property: 'og:url', content: 'https://example.com/'+this.slug }
浏览 5
提问于2020-02-10
得票数 1
1
回答
如何让我的网站自动将urls提交到facebook opengraph平台进行处理?
、
、
我经营着一个新闻网站,每年有几十万的浏览量。每当有新内容发布时(每个周日晚上),作者喜欢在facebook上发布新内容的链接。然而,据我所知,facebook每24小时才抓取一次网站。因此,当链接粘贴到facebook上时,它只会显示默认文本。(即而不是嵌入在页面中的开放图形数据)。 网站上的所有页面(特别是新闻文章本身)都使用完整的开放图形数据进行标记。facebook linter将始终正确显示嵌入的opengraph数据。然而,在它抓取新页面之前,它们不会在facebook上正确显示。 目前,一种手动解决方案是通过facebook linter运行所有新的URL,facebook lin
浏览 1
提问于2012-09-23
得票数 0
1
回答
如何在我的静态html网站上显示来自Wordpress的一篇(特色)文章?
、
、
我们在我们的网站()上有一个Wordpress News博客,它与静态html网站的其余部分是分开的。我只想把最新的故事(特色帖子)放在我们的主页上。博客和我们的网站在同一台服务器上。我发现我可以像这样抓取帖子标题: <?php require('../news/wp-blog-header.php'); ?> <?php query_posts('showposts=3'); ?> <?php while (have_posts()) : the_post(); ?> <a href="<?php th
浏览 1
提问于2013-01-25
得票数 0
1
回答
通过android/Ios应用程序在Facebook上共享应用程序链接
、
、
、
、
我目前正在我的Android/IOS应用程序中实现共享功能,但遇到了一些问题,为facebook刮板提供了一个正确的链接。 因此,在我看来,有两个选择: 使用facebook托管应用程序链接 在自己的网站上使用自定义重定向php 从facebook创建的应用程序链接的问题是,它们在共享的帖子中不包含拇指导航。有可能在facebook应用程序链接中添加og:标记吗?我想不是,但得问一问。那就解决了我的问题。 然而,使用自定义php根据平台将用户重定向到应用程序商店/播放商店,会产生另一个问题。 Facebook从最终的url中抓取图像,在本例中是应用程序的应用商店/playsto
浏览 3
提问于2017-08-16
得票数 1
1
回答
带有缩略图的子页面列表
、
我正在帮助一个朋友创建一个网站,并遇到了一个障碍。 我正试图在我的网站的父页面上创建一个子页面列表。链接到父页面: 我想让php抓取页面标题,缩略图,并使它成为一个链接。像这样: 事实证明,这比我想象的要困难。以下是我到目前为止所拥有的: <?php $pages = get_pages(array('child_of' => 8)); ?> <?php foreach ($pages as $page): ?> <?php echo get_the_post_thumbna
浏览 2
提问于2012-07-19
得票数 0
回答已采纳
1
回答
用PHP语言生成动态站点的Sitemap.xml文件
、
、
、
如何抓取站点中所有唯一链接,并将XML文件创建/写入到相应域的根目录。当我调用mydomain.com/generatesitemap.php时,这个文件抓取域中的所有链接,并将它们写入文件sitemap.xml。在带有cURL的PHP中这是可能的吗?
浏览 3
提问于2012-04-09
得票数 0
1
回答
如何使用xpath和php抓取图片并保存到本地机器?
、
我正在从一个html网站抓取数据,不仅需要抓取文本,还需要抓取图像。当我抓取文本内容时,是否可以使用xpath实际抓取图像文件并下载到我的本地计算机?我使用的是php脚本。
浏览 2
提问于2013-12-16
得票数 0
3
回答
在网站管理员工具中,googlebot收到来自服务器的爬网错误500
、
、
我注意到我的网站排名不如以前,当我检查网站管理员工具时,我发现gooblebot不能抓取我可以用浏览器抓取的页面,我得到了一个500错误。 这些网站不是WordPress,而是使用PHP。 导致此问题的原因是什么? 这是WMT中的实际错误 HTTP/1.1 500 Internal Server Error Date: Tue, 06 Nov 2012 21:04:38 GMT Server: Apache Expires: Thu, 19 Nov 1981 08:52:00 GMT Cache-Control: no-store, no-cache, must-revalidate, pos
浏览 1
提问于2012-11-06
得票数 0
1
回答
通过PHP从其他站点抓取iframe视频
、
、
、
、
我想从其他网站抓取视频到我的网站(例如,从一个现场视频网站)。 如何从其他网站上抓取<iframe>视频?这个过程和抓取图片的过程一样吗? $html = file_get_contents('http://website.com/'); $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpace = false; $iframes = $dom->getElementsByTagName('frame'); foreach ($iframes as
浏览 7
提问于2014-10-31
得票数 1
1
回答
简化一次运行多个请求的流程
、
、
我有一个网站的计划,它需要足够笨拙的抓取多个网站一次。我在想如何才能尽可能快地做到这一点,但我真的不知道怎么做。 我正在使用PHP简单的HTML DOM解析器来抓取某些项目的一些网站。它看起来像这样: $html = file_get_html($fullUrl); $collection = $html->find('div.info'); 如果我想一次抓取多个站点,我是否可以通过将其分支到不同的PHP文档来简化抓取过程,比如使用单独的simple_html_dom.php文档?其中页面A分别向页面B和页面C发出一个请求,这两个页面分别向页面A返回数据。它们是同时运行
浏览 2
提问于2018-03-31
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP实现远程抓取网站图片并保存在文件中
PHP远程抓取网站图片并保存在文件中,实践过
Python数据抓取(3)—抓取标题、时间及链接
抓取整个网站-免费抓取整个网站数据信息软件
什么是网站数据抓取
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券