python HTML页面中的Web抓取未满

文章/答案/技术大牛

发布

1回答

python、html、web-scraping、python-requests

我正在尝试从一个页面中抓取这两个表但是当我使用soup.find(‘表’)时，它就是找不到它。另外，当我打印soup对象时，HTML代码的表格部分没有打印出来，有什么解决方案吗？到目前为止我的代码如下： from bs4 import BeautifulSoupimport requests url = 'http://www.b3.= BeautifulSoup(r.text, 'lxml'

浏览 19提问于2020-11-21得票数 0

1回答

在python中浏览/解析html页面

python、html、parsing、browser、web-scraping

为了与html页面进行交互，我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览和与按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互，到解析html页面和向服务器发送自定义get/post消息。我正在使用Python3，到目前为止，我有Request用于简单的网页加载、自定义get和post消息，BeautifulSoup用于解析HTML树，我正在考虑尝试机械化

浏览 3提问于2014-04-17得票数 1

回答已采纳

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

python、html、html-parsing

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

2回答

尝试将数据从网站加载到json文件中。

python、json、python-requests

我试图将数据从一个网站加载到一个json文件中。m=1" print(r.text)print(r.json)继续：：import json“，s，err.value)到No

浏览 2提问于2020-05-10得票数 0

3回答

从Morningstar网站抓取财务数据

python、json、beautifulsoup

到目前为止我的代码如下： fin_tbl = () soup = bs4.BeautifulSoup(c, "html.parsersoup.find("div&

浏览 3提问于2016-02-27得票数 3

2回答

有没有办法从另一个网页上的HTML表格中提取数据？

html

我很好奇，是否有一种方法可以让计算机读取这些数据，并将其输入到计算机程序中，这样你就可以使用这些数据。例如，如果我可以访问ESPN的网站，查看联赛排名并将记录发送到我的代码，我想这是可能的。我知道有些网站有你可以使用的API，但我会使用它的网站没有…

浏览 1提问于2016-07-07得票数 0

3回答

用python刮网站

python、web-scraping、beautifulsoup、scrapy、libraries

我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

1回答

从网页中提取主题/关键字

python、web-scraping、keyword

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

2回答

使用ImportHTML和Google sheets进行web抓取

web-scraping、google-sheets、google-sheets-formula、google-sheets-importxml

我正在尝试用Google sheet和ImportHTML (以及它的变种，如ImportXML和ImportData)从网页上抓取股票行情。它可以在一些网页上工作，但不能在其他网页上工作。我无法从其中导入数据的网页的一个例子是。有没有办法下载或抓取这些数据？

浏览 9提问于2020-06-15得票数 0

2回答

BeautifulSoup web抓取，无结果

python、beautifulsoup、web-crawler

我在试着从https://hk.appledaily.com/search/apple..。我需要从div class="flex-feature"但它只返回[]..。希望大家能帮忙，谢谢！ from bs4 import BeautifulSoup results = soup.find_all(

浏览 40提问于2020-10-06得票数 2

回答已采纳

2回答

Python -如何检查wordpress站点版本

python、wordpress

我正在考虑获取安装在域上的wordpress版本，但我不确定该怎么做。

浏览 0提问于2021-02-01得票数 0

1回答

Python到PHP异步数据传输

php、python、asynchronous

我有一个建立一个网络刮擦工具的要求。抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。客户认为python是快速和更好的web抓取的选择。您认为混合python和php仍然会带来快速的结果吗?还是坚持使用php进行web抓取

浏览 3提问于2017-05-04得票数 1

回答已采纳

3回答

保存网页源代码的固有方法

python、web-scraping

我读了很多关于网络抓取的答案，都是关于BeautifulSoup，Scrapy e.t.c。执行网络抓取。import urllib f = open('webpa

浏览 1提问于2012-11-11得票数 16

回答已采纳

4回答

如何自动导航到需要身份验证的网站？

facebook、automation、scripting、screen-scraping

这就是我想要实现的目标。我想写一个脚本，它将导航到一个网站，要求我被认证为我自己，比如Facebook，Live Spaces，Twitter或任何其他网站，然后让该脚本在网站的某个页面上搜索某些信息。我在过去用Windows.Forms WebBrowser控件做过类似的事情，它是IE的一个成熟的实现，可以通过代码控制，一旦你通过身份验证，它将存储你得到的任何cookie，但它修改起来非常不友好，我希望使用一种脚本语言来代替也许在网络上有一些关于这方面的好的教程？谢

浏览 1提问于2010-04-08得票数 1

3回答

如何使用python同时下载网页？

python、python-2.7

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面for i in range(1,1001): urlretrieve('http://someurl.com/getP

浏览 14提问于2015-05-18得票数 1

回答已采纳

1回答

Python web抓取-从哪里开始

javascript、python、selenium、web-scraping

我试图建立一个网络爬虫来收集来自多个投注网站的投注数据。我有一些编程经验，但我非常迷失在网页，网页抓取等世界。但是所有这些教程都是非常简单的页面，而我想要的似乎有些不同(也许是JavaScript？) 我怎样才能得到有赔率的事件，等等？

浏览 0提问于2016-06-21得票数 1

1回答

访问HTML注释中的标记

python、html、web-scraping、beautifulsoup

我已经通过BS4熟悉了使用Python进行web抓取的过程。我还没有找到嵌入在注释中的DOM标记的解决方案。例如，当试图从.html页面()获取数据时，检查页面上的表显示：我通常可以用BeautifulSoup抓取。但是，当我查看实际<

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

Python Web抓取:通过加载页面抓取页面

python、python-3.x、web-scraping

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目

浏览 15提问于2020-10-25得票数 0

3回答

可以解释JavaScript的网络爬虫

javascript、web-crawler

基本上它是一个用Java或PHP编写的程序，它接受URL作为输入并输出DOM树，这与Firebug HTML窗口中的输出类似。最好的例子是Kayak.com，当你“查看源代码”时，你看不到浏览器上显示的结果DOM，但可以通过Firebug保存结果。我该怎么做呢？有什么工具可以帮助我吗？

浏览 68提问于2010-04-20得票数 18

点击加载更多