使用html标签从google搜索页面抓取网页_使用DOMDocument从HTML页面抓取数据_使用简单的HTML Dom从HTML页面抓取数据 - 腾讯云开发者社区

web-scraping、uipath

我正在尝试做一个谷歌搜索，并获得前5个结果(标题/URL)到一个excel文档。我试过使用“数据抓取”，但根据搜索词的不同，谷歌会显示不同的页面。有时它会有视频，图像或相关的搜索词。因此在大多数情况下，我无法从页面中实际获得所有结果，因为uiPath无法识别它们，这可能是因为不同的div。所以我的想法是通过html标签获取它们，因为每个标题都使用H3，但我找不到这样做的方法。

浏览 28提问于2019-05-08得票数 0

5回答

如何告诉谷歌不要为我的网站建立特定关键词的索引？

seo、google、google-search-console、google-search

在搜索引擎上搜索品牌时，不应该出现其中一个。你知道怎么做吗？

浏览 0提问于2019-04-24得票数 1

2回答

在Java中从某个URL调用脚本？

java、javascript、html、parsing、execute

为了方便起见，我使用Java解析一个随机网站的超文本标记语言，假设它是。在解析HTML数据之后，我希望提取其中的一些数据，并将其显示在显示器上。之后，用户将输入搜索词，并按下一个按钮。这个按钮将执行“搜索”按钮后面的脚本。我想在几个网站上做到这一点，所以给我一种只与google一起工作的方法不会对我有太大帮助。

浏览 0提问于2012-03-30得票数 0

回答已采纳

1回答

我已经建立了一个使用角度2的网页应用程序，并需要使它更友好的搜索引擎优化。我想动态地改变头部的值。不同路线的元标签，在之前就被Facebook、Instagram和Twitter的网络抓取机器人刮掉了。我可以根据自己的需要动态更新元标记，方法是使用@ar角/platform-browser 。我的问题是，社交媒体的网络抓取机器人无论在什么情况下都在搜索静态的src/index.html，而这个角度应用程序还没有添

浏览 3提问于2020-11-28得票数 1

回答已采纳

3回答

停止谷歌机器人不止一次爬行URL？

seo、web-crawlers、googlebot、crawl-rate

根据搜索控制台，很多天googlebot每天都会爬行数万次，这表明他们一直在抓取他们已经爬过的页面。我知道我可以限制googlebot爬行率，但是是否有可能强迫googlebot只爬行一次和一次？

浏览 0提问于2019-08-08得票数 2

回答已采纳

2回答

为什么我们应该使用语义HTML5元素，比如页眉和页脚而不是div？

seo、html、technical-seo、semantic-elements

我正在设计一个网站，但有些网站使用语义HTML5标记，如<header>或<footer>，而不是div。我的问题是，为什么他们这样使用他们，有什么害处在SEO当使用正常的div？

浏览 0提问于2021-10-09得票数 2

回答已采纳

4回答

允许缓存静态google地图吗？

google-maps

然而，当使用共享连接时，例如使用移动电话和3G接入(电话运营商)，这一限制似乎是有问题的。因此，我的问题如下:我可以在服务器端检索图像并将其提供给我的客户端吗？是允许的吗？

浏览 3提问于2010-10-08得票数 22

回答已采纳

1回答

解析html页面并将内容(标题、文本等)存储到数据库中

java、web-crawler、web-analytics

有没有人知道一些开源工具来解析html页面，过滤广告，JS等，以获得标题，文本。我的应用程序前端是基于LAMP的。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。

浏览 3提问于2010-09-17得票数 1

0回答

抓取Google时，Google电子表格中的importxml函数出错

xml、google-sheets

我正在尝试使用函数将一些Google搜索结果抓取到我的Google电子表格中：而且我一直面临着错误：“无法获取URL”。我试着用不同的Google搜索结果页面，不同的HTML标签

浏览 8提问于2017-01-05得票数 0

3回答

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

python、web-scraping、urllib2、google-search

有没有一种简单的方法来抓取谷歌，并为给定的搜索写出前N个(比如说1000个) .html (或其他任何)文档的文本(只是文本)？举个例子，想象一下搜索短语“大灰狼”，只下载前1000个点击量中的文本--也就是说，实际上是从这1000个网页中下载文本(但只下载那些页面，而不是整个网站)。我假设这将使用urllib2库？如果有帮助的话，我会使用Python 3.1。

浏览 2提问于2011-03-16得票数 10

回答已采纳

1回答

我能让蓝色棱镜根据关键词来阅读搜索引擎的结果吗？

blueprism

我在谷歌搜索一些关键术语-当第一页结果打开时，我想让蓝色棱镜选择标题中有“键1”和“键项2”的链接标题，然后打开链接。这意味着，谷歌搜索结果中可能会有几个包含(或不包含)两个关键词的结果。

浏览 4提问于2018-06-07得票数 0

回答已采纳

1回答

搜索引擎还在搜索noindex页面吗？

seo、web-crawlers、duplicate-content、noindex、nofollow

搜索引擎是否会抓取具有“noindex”元属性的页面？我之所以问这个问题，是因为我们有一些由分面导航引起的几乎重复的内容，而过滤过的页面已经声明了“noindex”，我想知道这些页面是否还会被检测为复制的呢？当我们使这些页面唯一的时候，我是否必须在链接中添加一个‘no追随者’属性？

浏览 0提问于2016-11-03得票数 7

回答已采纳

3回答

搜索Google Play商店

android、web-crawler、google-play

我想爬行Google Play商店下载所有android应用程序的网页(所有具有以下基本url的网页：)。我检查了play商店的robots.txt文件，它不允许抓取这些URL。此外，当我浏览Google Play商店时，我只能看到每个类别最多3个页面的热门应用程序。如何获取其他应用程序页面？如果有人尝试过抓取Google Play，请让我知道以下事情: a)你是否成功地抓取了play商店。如果是，请让我知道你是如何

浏览 2提问于2013-06-09得票数 10

2回答

google爬行错误中的页面索引

indexing、permalinks、web-crawler、google-search-console

我想从google中删除我从服务器上删除的页面，或者重定向我从服务器上删除的页面 www.mysite.com/pagename.html 因此，我从google中删除了站点地图，创建了一个新的站点地图，并上传了我现在的问题是google给我爬行错误，因为删除的页面有www

浏览 3提问于2013-03-14得票数 0

1回答

<meta name=“机器人”>不工作

html、meta、robots.txt

然而，尽管如此，Google搜索控制台仍在抱怨该页面是：据我所知，一切都是有效的和正确的，不应该被索引，谁能解释谷歌在抱怨什么？谢谢

浏览 1提问于2018-08-13得票数 2

2回答

更好的网页描述在谷歌搜索结果可能使用模式？

meta-tags、schema.org、jsonschema、google-schemas、json-ld

我成功地使用了Google模式的JSON实现，使Google搜索结果中的信息更加详细和有意义。更具体地说，我能够让谷歌搜索结果显示一个公司的标志和公司的描述，通过添加相关的JSON-LD代码到我的网站的顶部。详情如下：我现在想要更好的文字描述显示在谷歌搜索结果的个人网页在我的网站。原因是谷歌没有在某些网页上获取元描述标签数据，而是在页面上抓取一些没有描述性、有用性或意义的文本。我想知道我是否可以

浏览 0提问于2015-08-20得票数 1

1回答