似乎不能正确地抓取网站“福布斯”

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试抓取网站首页文章的链接和标题。 print (url.get('href')) 检查网站的html，我似乎有类和'a‘(不确定你在这种情况下叫'a’)是正确的。编

浏览 8提问于2017-01-26得票数 0

回答已采纳

1回答

模拟使用抓取链接时单击链接

、、、、

我想从福布斯网站上的文章中抓取内容。这是一个示例页面：。当直接加载一篇文章时，页面源就会变成一堆很难解析的JavaScript。在四处闲逛时，人们似乎推荐机械化来模拟浏览器的操作，但我不知道在这种情况下我会尝试用它做什么。或者，是否有更好的方法来完全抓取这些数据？我很感谢你能提供的任何帮助！

浏览 2提问于2015-09-27得票数 0

回答已采纳

1回答

使用电子表格的Xpath导入XML，提示“导入内部错误”

、、

我正在尝试使用import XML和XPath收集一些关于福布斯文章的数据。我想拉这个页面上的文章浏览量我在用这个。

浏览 4提问于2014-07-22得票数 1

2回答

福布斯的欢迎页对seo不好吗？

、

我在福布斯的网站上看到了一个有趣的案例。当您进入网站时，它会显示一个包含引号的页面，然后单击“继续”按钮，查看实际页面。但是，“福布斯”如何让他们的网站变得更友好呢？

浏览 0提问于2013-02-10得票数 3

1回答

似乎不能从这个网站上抓取tbody

、、

我正在尝试从这个网站上获取数据： page = requests.get('https://web.archive.org/web/20130725021041/http://www.usatoday.com

浏览 9提问于2019-11-03得票数 0

回答已采纳

2回答

网页抓取:用于分页的XPath

、、

我正在试着用章鱼刮几个公司的网站。我似乎不能让我的XPath正确地进行分页。网站页面没有“下一步”按钮。我正在尝试从每个页面中抓取数据。有什么建议吗？

浏览 33提问于2020-11-07得票数 0

回答已采纳

1回答

Bing + React:不一致的索引

、、

javascript生成的(MD5 / Decrane.io) --这是正确和预期的情况那么问题是:有没有办法，如何强制/提示Bing正确地索引JS页面？此外，由于谷歌支持通过JS补充页面，而且必应在某种程度上似乎也支持，我认为这可能只是一个时间问题，直到所有引擎都完全支持JS。

浏览 0提问于2017-03-12得票数 4

回答已采纳

2回答

显示Wordpress默认收藏图标而不是设置收藏图标的Google索引

、、

我建立了这个网站： https://www.everyguy.co.nz/ 如果你去那个网站，你会非常清楚地看到该网站有它自己的自定义收藏图标(红色的"EG")。然而，谷歌绝对坚持用Wordpress的默认图标而不是自定义图标来索引网站！(搜索词："Everyguy"，"Everyguy Hair“或"Everyguy Hair term”) ? 我已经尝试在谷歌搜索控制台中重新提交网站的网站

浏览 24提问于2021-01-27得票数 0

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以映射到使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的所有其他非谷歌蜘蛛都不能使用使用_escaped_fragment_的谷歌技术。我想要确保当谷歌蜘蛛

浏览 0提问于2011-07-30得票数 1

回答已采纳

1回答

您能将页面上的锚作为单独的URL处理吗？

、、、

我正在寻找类似于福布斯网站在上所做的事情。如果您向下滚动，另一篇文章加载，然后URL更改到该文章的。他们如何做到这一点？似乎是javascript，但是您不需要像mod_rewrite这样的东西来创建这样的链接吗？

浏览 2提问于2014-10-23得票数 3

回答已采纳

1回答

博客站点地图提交

、、

我应该使用robots.txt还是使用Google工具提交我的XML？仅仅提交robots.txt就足够了吗？

浏览 0提问于2015-02-04得票数 2

2回答

我不能用colly go在福布斯前亿万网站上搜索

、

real-time-billionaires/") } 这是我的代码，当我请求时，我将获得备用页面This is the link for forbes that i am trying to scrape 我已经注意到网站使用散列路径，这是在网址的最后一部分，我不能请求与同一网址两次，我认为它在某种程度上与抓取有关，有人能帮我吗？

浏览 26提问于2021-11-01得票数 0

回答已采纳

1回答

是否有任何字符正则表达式的最大长度可以处理？

、

我可以摘录网址i wanted...mostly，但只有这个网址不能摘录。 forbes = re.compile(r"http://www.forbes.com/(?:.*)") cleanuplist.append(urlList[i]) 然而，它也没有获得福布斯网站。

浏览 4提问于2016-09-30得票数 1

回答已采纳

1回答

从PHP中的字符串中删除某些特殊的HTML字符

、、、、

我正在从一个网站抓取信息，我想知道如何忽略或替换一些特殊的超文本标记语言字符，如"á"，"á"，"’“和"&amp"”。这些字符不能被抓取到数据库中。我已经用这个替换了" “：$mystring = str_replace($nbsp, '', $mystrin

浏览 0提问于2014-03-11得票数 0

1回答

PHP简单HTML DOM解析器将div作为数组返回

、、、

我使用PHP和简单的尝试从一个网站抓取歌词。歌词与班级的“歌词”一起举行。下面是我用来尝试抓取div并显示它的代码。目前，它只返回“数组”到我的网页。> 我知道简单的HTML被正确地包含了，当我通过对代码的一些小改动回显$html时，我没有问题显示完整的网页，但是我似乎不能只回显这个div。我的密码有什么问题吗？为什么$lyr返回一个数组？

浏览 2提问于2017-04-17得票数 1

回答已采纳

2回答

我有一个非常奇怪的robots.txt问题...几个月来，我一直在定期更新我的机器人，没有任何问题。几天前，我遇到了这个问题。我已经更新了FTP文件夹中的机器人，文件也被正确更新了。现在，如果我在浏览器中看到这一点，我会看到旧版本。甚至连谷歌都没有更新它，已经有好几天了。如果我进入搜索控制台，在see like google功能中，我会看到：在左边你可以看到，我在浏览器里看到了什么，谷歌看到了什么，在右边你可以看到我的真实文件，就像它出现在ftp中一样。不同之处在于最后5行。还有站点周围的帮助，请看，从另一个状态加载，正确的版本，文件版本。相反，我和谷歌看到的是旧的.我不知道它是否有用

浏览 0提问于2018-05-17得票数 0

2回答

应用程序索引:如果谷歌机器人已经提供了访问权限，那么是否需要使用应用程序索引API来发布deeplinks？

、、

我已经在我的应用程序中实现了应用程序索引，将深度链接从谷歌搜索结果重定向到应用程序，我们使用“自定义applink”进行深度链接。我没有在发布深度链接的代码中使用应用程序索引API，因为这些链接可以通过Googlebot访问。

浏览 6提问于2015-08-20得票数 2

3回答

无法使用HTML抓取导入数据

、、、、

我已经决定从现有的超市比较网站上提取价格。我使用这个网站学习：import requestspage =注意--我是HTML抓取的新手，对python有基本的了解，但我决定有一点挑战。提前谢谢。

浏览 3提问于2018-10-12得票数 0

2回答

Google站点地图几个月后就没有索引了

、、

几个月前，我创建了一个WordPress博客，通过Yoast安装了SEO，并向谷歌的网站管理员工具提交了一个站点地图。但是，我的站点地图还没有被索引。

浏览 0提问于2016-07-20得票数 2

1回答

在尝试从RStudio云访问任何站点时，如何防止503个错误？

、、、

我尝试了这么多东西，但根本无法通过这个最初的“握手”我的电脑与几乎任何网站。我尝试过Amazon，IMDB，Glassdoor等等，只是为了尝试和实践为我的学校的工作文本挖掘，我不能走得更远，因为他们都抛出这个问题。几个月前，我应该学习在多个页面上循环函数、"rests“(robots.txt/礼貌pkg)和映射(purr::)等，但在我至少能够正确地看到这个过程函数的这一部分之前，我不会更进一步。

浏览 8提问于2022-10-01得票数 0

点击加载更多