python web抓取- URL与Chrome Inspect结果不匹配

文章/答案/技术大牛

发布

2回答

、、

我试图从下面的链接中检索一些数据，但当我更改网址时，通过单击网站底部的下一页按钮()检索网址时，我的请求会导致不同的结果。User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome使用下一页中的新URL编写代码 url_test = 'https://www.carmax.com/searc

浏览 23提问于2018-09-03得票数 1

1回答

使用Python XPath lxml包抓取<span>标记中的文本

、、

使用Chrome的Inspect element功能，我看到我想要的文本如下所示： <span id> " 12"import requests, os, jsontree的Inspect元素功能

浏览 66提问于2020-07-08得票数 0

回答已采纳

1回答

如何从承载HTML之外的表数据的网站中刮表？

、、、、

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine我试着用我以前刮过的方法做一次盲刮。User-Agent': 'Mozi

浏览 3提问于2022-04-02得票数 -1

回答已采纳

4回答

如何从外部网站获取HTML表值？

、、、

我想要访问一些HTML表数据，以便保存和脱机使用它们。目前，当我下载网页并将JavaScript放入该文件时，我使用的是JavaScript，它可以正常工作。但是我想直接从网页中获取元素，而不需要下载之前的内容，或者让JavaScript自动下载并从下载的文件中获取元素。这有可能吗？我找不到答案，因为每个人都要求自己的网页，但我没有自己的网站，我想从那里获得表格数据。到目前为止我的代码如下： function showTableData() { var tableData = document.getElementsByClassName('homeonly');

浏览 32提问于2019-02-23得票数 0

1回答

使用find在python中抓取单个html表

、、、

我是python的新手，正在尝试从网页上抓取一个表格。我已经通过Chrome中的"inspect“访问了html。我想要抓取这个表，以及页面的标题，并最终将它们放入csv文件中。但是，我首先需要得到工资表。我一直在尝试使用BeautifulSoup中的find函数，因为它只是我感兴趣的一个表。问题是，当我运行以下代码时，没有得到任何结果：我正在使用

浏览 0提问于2017-11-16得票数 0

1回答

web抓取时找不到包含JSON信息的请求URL

、、

我正在收集一些python web抓取的东西。如果我转到这个website，我想要提取公司的描述和投资者列表。我设法找到了Chrome inspect的XHR，找到了描述的json文件。Scraping: cannot access information from web，Trying to scrape - no response from XHR，Empty value fromweb scraping with python beautifu

浏览 8提问于2019-08-24得票数 0

1回答

如何得到已经送到芹菜的任务清单？

、、

使用django时，我的web应用程序每次向url询问url时都使用芹菜发送任务：如果芹菜已经在进行的话，我不想发射这个魔杖。我使用：- django 2.0.13 - python 3.4.2 -芹菜v4.3.0和redisdef inspect(method): app = Celery('app', broker='redis://localhost:6379')

浏览 0提问于2019-08-23得票数 1

1回答

我从python上看到的东西和我从firebug上看到的不一样。

、、

我正在练习写一个网络爬虫，从一个网站抓取一些有趣的信息。我在我的个人网站上尝试了这段代码。它按照我的预期工作，但当我试图在一个真实的网站上实现这段代码时，它并没有显示出它应该显示的内容。以下是我的代码和结果。'soup = BeautifulSoup(page,'lxml')打印结果firebug(或chrome inspect)产生的<e

浏览 4提问于2018-02-09得票数 1

回答已采纳

3回答

抓取urls的抓取顺序

、

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可以的，因为它来自一个循环，但是我如何添加到循环的当前url，或者我可以设置链接列表的顺序？

浏览 0提问于2018-04-18得票数 0

1回答

Python不使用post方法登录网站

、、、

多年以来，我一直在尝试用python登录一个网页来抓取一些数据。在使用了登录站点的Chrome inspect后，我就是想不出如何执行它，它似乎与这里找到的任何答案都不同。headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safar

浏览 8提问于2019-05-25得票数 0

2回答

Python -如何在URL中不分页地刮分页

、

下面是示例页面： *我知道pubmed有API，但是API不返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

3回答

如何在使用时获取扫描文件的位置？

、

结果不包含匹配的值(引号)，尽管我打开了include_quote。另外，如何获得具有匹配值和匹配值的文件的名称？我在用Python。这就是我到目前为止所拥有的。正如您所看到的，API找到了匹配项，但我没有得到标记单词(和文件)的详细信息。inspect_job = { 'info_types': info_types, &#x

浏览 0提问于2019-02-22得票数 1

回答已采纳

1回答

由脚本生成的抓取表

、

我一直在尝试用蟒蛇和漂亮的汤刮一张网站桌子。我遇到的问题是，表是通过脚本生成的，所以表看起来如下所示： <thead> <th data-intro="Clicking a topic will allow you to view and ask general technical questions

浏览 0提问于2018-05-27得票数 0

3回答

如何从amazon页面python web抓取产品尺寸

、、、

我对网络抓取和蟒蛇是新手，所以如果你能帮我，那就太棒了！

浏览 6提问于2022-08-29得票数 -3

回答已采纳

1回答

如何添加"https://www.“”你的python抓取结果吗？

、、、、

我正在尝试通过python抓取一些URL。特别是，我正在处理指向python的链接，我使用了chrome提供的inspect函数，我还在the Hong Kong electoral platforms.上使用了lxml的etree函数。table-district-member"]/tbody/tr/td[4]/div/a/@href') return ["https:/

浏览 31提问于2021-01-17得票数 0

回答已采纳

1回答

分页:为什么在页面不匹配的情况下它仍然在运行？

、、

我想要从网站上抓取数据，但首先我想获得带有分页的页面。在这里，我使用python作为编程语言，并且我已经获得了这段代码。但是当我运行它时，它不能正常工作。当response.url与expected_url不匹配时，必须停止结果。有没有人知道怎么解决它？请帮帮忙，谢谢。o=a&s=%d" req = urllib.request.Request(<em

浏览 1提问于2018-09-04得票数 0

回答已采纳

1回答

如何在提取特定亚马逊销售商的所有产品链接时处理分页符

、、、

我正在编写一个Python程序来提取锚标与hrefs匹配某个正则表达式模式从卖家页面。例如，我的第一个以字母'A‘开头的卖家URL如下：注意:我使用的是Chrome版本60.0.3112.113 (官

浏览 1提问于2017-09-13得票数 1

1回答

错误500将python请求作为chrome发送

、、、

我在一个页面中进行了身份验证，打开了"inspect/network“chrome工具，查看调用了什么web服务以及如何调用。我发现这是用来：我已经审查了与该网站相关的敏感数据。所以，我必须使用python来做同样的请求，但是我总是得到错误500，并且服务器端的日志没有显示有用的信息(只有java回溯)。这是请求的代码 response = requests.post(url,data = 'username=XXXXX&password

浏览 0提问于2017-01-30得票数 0

1回答

在本地计算机上使用Twitter API，而不是在web上？

、、、

要在Python中访问Twitter，您需要注册一个Twitter应用程序。'***' > access_token_secret = '***' 但是，要注册Twitter应用程序，您需要提供应用程序用于访问Twitter的URL我想做的就是抓取与某个搜索短语匹配的推文。如果没有可访问web的服务器，我如何做到这一点？我应该使用像morph.io这样的网络抓取

浏览 0提问于2014-07-21得票数 0

2回答

处理get参数中的空格

、

我使用的命令如下哪里当直接在浏览器中输入网址时，chrome会在名字和姓氏之间添加一个%20，网站就会正确地处理这些事情。但是，当我使用带有空格的$url时，file_get_contents只抓取</em

浏览 1提问于2011-11-17得票数 5

点击加载更多