Python -网络抓取<table>_逐行抓取表？Python网络抓取_网络抓取Newegg - Python - 腾讯云开发者社区

python、html、web-scraping

我正在尝试使用python网络抓取一个HTML表格。我正在用漂亮的汤来做这个网络刮擦。HTML页面中有许多表格，表格中有许多行。我希望每一行都有一个不同的名称，如果该行中有列，则希望它们是独立的。我的代码如下所示： page = get("https://www.4dpredict.com/mysingaporetoto.p3.html") html = BeautifulSoup(page.content, 'html.parser') result = defaultdict(list) tables = html.find_all('table&

浏览 0提问于2018-09-15得票数 3

1回答

Python中的Web抓取

python、web-development、scraping

我需要学习高级python编程技能才能使用python进行web抓取吗？或者，我应该看一些关于网络抓取的教程，同时学习使用python。我对python没有任何经验，因为我是Laravel开发人员，这是我第一次在web抓取中做这样的工作。

浏览 0提问于2019-11-04得票数 -1

1回答

如何从有加载表的网站上抓取网页？

python、json、web-scraping、beautifulsoup

我试着用Python2.7从一个网站上抓取网页，那里有一个必须加载的表。如果我试图在网络上抓取它，我只得到它：“加载”或“对不起，我们没有关于它的任何信息”，因为它必须先加载。我读了一些文章和代码，但都没有用。我的密码： import urllib2, sys from BeautifulSoup import BeautifulSoup import json site= "https://www.flightradar24.com/data/airports/bud/arrivals" hdr = {'User-Agent': 'Mozil

浏览 2提问于2017-07-25得票数 0

回答已采纳

3回答

Python错误：'NoneType‘对象没有使用Beautiful Soup的属性'find_all’

python、html、beautifulsoup

我在运行一些网络抓取代码时遇到了问题。要从一系列链接中抓取信息，如下所示： http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument 我正在尝试从表中抓取某些元素，但收到以下错误： Python Error: 'NoneType' object has no attribute 'find_all' 我知道这与它实际上没有找到表有关，因

浏览 44提问于2020-04-18得票数 1

回答已采纳

1回答

Python到PHP异步数据传输

php、python、asynchronous

我有一个建立一个网络刮擦工具的要求。抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。客户认为python是快速和更好的web抓取的选择。您认为混合python和php仍然会带来快速的结果吗?还是坚持使用php进行web抓取更快/更好？在这两种语言之间异步交换数据的首选方法是什么？谢谢!

浏览 3提问于2017-05-04得票数 1

回答已采纳

1回答

如何使用requests模块登录到fidelity.com

python、login、web-scraping、python-requests

我正在试着用python写一个网络抓取程序。然而，我想要抓取的页面是在登录的后面。我有一个帐户，并且一直在尝试关注发布在上的帮助。我想我做的每件事都是正确的，但我无法通过登录。我的代码如下： #!/usr/bin/env python import requests, sys, lxml.html #log

浏览 9提问于2017-07-13得票数 1

回答已采纳

2回答

如何解决超出范围的列表索引错误Python？

python

我正在学习使用python进行网络抓取。这里是我的第一个python代码 # encoding=utf8 import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen("http://www.bcsfootball.org/").read(),"lxml") for row in soup("table", {'class': "mod-data"})[0].tbody("tr"):

浏览 5提问于2016-07-03得票数 1

回答已采纳

2回答

如何在javascript中运行python脚本

javascript、python

我如何在JavaScript ?中使用python 我想做一个活的网络刮刀。Python是最好的网络抓取工具。但我正试图在前端运行Python代码。所以我的应用程序的性能很好。

浏览 3提问于2022-05-08得票数 -1

1回答

如何从Python中抓取日期部分

python、html、date、web-scraping、beautifulsoup

我正在尝试通过网络抓取这个网站：https://www.reuters.com/companies/tsla.oq/financials/income-statement-quarterly 我使用的是Python，除了日期部分之外，所有的东西都可以被抓取。也就是说，我不能刮“30-Jun-20”。我试着像 from requests import get from bs4 import BeautifulSoup url = 'https://www.reuters.com/companies/tsla.oq/financials/income-statement-quarterl

浏览 15提问于2020-09-15得票数 0

3回答

迭代硒over驱动程序的driver.find_elements

python、selenium-webdriver、xpath、css-selectors、webdriverwait

我必须从AXS.com网站上抓取所有的活动细节，作为我的网络抓取作业的一部分。我已经尝试使用铬网络驱动程序与Python+Selenium。我可以通过使用driver.find_element_by_class_name() (例如driver.find_element_by_class_name("headliner").text )来获得值。但这只是第一项。当我在使用driver.find_elements(By.XPATH,"//div[@class='results-table results-table--events']")之后尝

浏览 1提问于2019-06-05得票数 0

2回答

Python 3 web抓取选项

python-3.x、web-scraping

我是Python的新手，所以很抱歉这是一个新手问题。我正在尝试构建一个涉及web抓取的程序，我注意到Python3的web抓取模块似乎比Python2.x系列少得多。美汤、机械化和scrapy -这三个模块向我推荐--似乎都是不兼容的。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。任何建议都将不胜感激。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

1回答

使用BeautifulSoup在Python3中抓取页面上两个表中的第二个

python、html、web-scraping、beautifulsoup

我正在努力提高我的python技能，我只想从这个页面的中抓取“结果”表。我是网络抓取的新手，有没有人能帮我提供一个优雅的抓取结果维基的解决方案？谢谢!

浏览 1提问于2020-06-07得票数 0

1回答

网页爬网<！--禁止HtmlUnknownAttribute -->

python、html、web-crawler

我试着抓取链接："“。我使用给定的两行来读取所有参赛者的名字： table1 = soup.find("table", {'class':'standings'}) table2 = table1.find_all("tr") 但是，table2并不打印所有的表行。我发现“<--suppress HtmlUnknownAttribute -->”写在我不能抓取的所有行之前。有没有什么特别的原因。我只是个网络爬虫的初学者

浏览 1提问于2015-10-25得票数 0

1回答

Python网络摄像头Http流和图像捕获

python、webcam

使用Python，我需要能够从网络摄像头创建http流视频，并从该http源捕获静止图像。我想我可以使用VLC播放器来流式传输视频，然后使用python捕获一帧图像，但是如果VLC正在使用网络摄像头，Python就不能使用它来捕获静止图像。这导致我认为我可以使用python来流式传输视频，并且我可以在需要时使用相同的脚本来抓取静态图像。我将使用http流使用我们使用的专用软件来显示视频，当按钮被单击时，抓取静止图像。有什么建议是最好的方法吗？谢谢

浏览 0提问于2013-04-08得票数 2

1回答

我能做一个有python程序文件的应用程序吗？

android、server、android-sqlite

我对android程序很陌生。我给你举个例子，说明我的问题到底是什么意思。我想做一个应用程序，返回一个结果的网页抓取/刮(也许‘刮’似乎更合适)。例如，如果应用程序用户选择“块链”作为感兴趣的主题，我的应用程序就会将包含“区块链”这个词的文章链接还给他，这些文章是由于在特定的报纸网站上进行网络抓取而产生的。我已经用python做了一个网络抓取程序。所以，我想把这个程序连接到一个android应用程序，这样每当应用程序用户通过一个应用程序给出他们感兴趣的话题时，我就可以给他们返回网络抓取的结果。提前谢谢你回答我的问题。我一直在寻找答案，似乎我的应用程序应该链接到服务器和数据库。那

浏览 1提问于2018-11-03得票数 0

回答已采纳

3回答

如何在python中并行抓取多个html页面？

python、django、multithreading、beautifulsoup、python-multithreading

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

1回答

webpage从网页中抓取数据表，动态加载

python、html、jquery、web-scraping、beautifulsoup

import requests as r import pandas as pd from bs4 import BeautifulSoup as bs url = 'https://sirup.lkpp.go.id/sirup/ro/cari?tahunAnggaran=2021&keyword=sampah&jenisPengadaan=0&metodePengadaan=0' page = r.get(url) soup = bs(page.text, 'lxml') table = soup.find('table&#

浏览 3提问于2021-08-12得票数 1

回答已采纳

1回答

Python BeautifulSoup -如何在<td>中的值中爬行链接<a>

python、html、beautifulsoup

我正在学习网络抓取，并试图从下面的链接网络抓取数据。有没有办法让我从每个td的链接以及爬行？网站链接：这是我迄今为止所做的。 from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://eecs.qmul.ac.uk/postgraduate/programmes/" html = urlopen(url) soup = BeautifulSoup(html, 'lxml') table_list = [] rows = soup.find_all('

浏览 3提问于2021-12-05得票数 1

回答已采纳

4回答

AttributeError: NoneType对象在tbody内没有属性“find”

python、web-scraping、attributeerror

我是python领域的一名新手，正在尝试设置一个网络抓取工具。所以我正在试验一些代码。 import requests import bs4 website = requests.get("https://www.hltv.org/stats/teams") soup = bs4.BeautifulSoup(website.text, "html.parser") leaderboard = soup.find("table", {id: "stats-table player-ratings-table"}) tbody

浏览 0提问于2018-10-02得票数 1

1回答

BeautifulSoup只提取顶层标记。

python、html、python-3.x、web-scraping、beautifulsoup

我正在使用Python3.4中的BeautifulSoup进行一些网络抓取。现在，我在学习过程中遇到了一个问题:我试图从网页中获取一个表行，并且我使用find_all()来获取它们，但是在表中--有更多的表中有表行！如何在BeautifulSoup中只获得标签的顶级/一级通用或特定元素？ # Retrieves all the row ('tr') tags in table my_table.find_all('tr') 顺便说一句，这个问题是这个问题的重复(只有在那里使用的编程语言是PHP)：

浏览 1提问于2016-06-19得票数 17

1回答

使用单个URL在多个页面上刮取表

python、url、web-scraping、beautifulsoup

我正试着从Fangraphs中抓取数据。表格被分成21个页面，但所有页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是Fangraphs没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup来解析超文本标记语言代码，我能够抓取初始表，但那只包含前30个球员，但我想要整个球员池。两天的网络搜索，我被卡住了。链接和我当前的代码如下所示。我知道他们有一个下载csv文件的链接，但在整个赛季中这会变得单调乏味，我希望加快数据收集过程。任何方向都会有帮助，谢谢。 https://www.fangraphs.com/projec

浏览 21提问于2020-04-18得票数 1

回答已采纳

1回答

使用BeautifulSoup从`div`中的`p`中提取文本

python、python-3.x、web-scraping、beautifulsoup

我对使用Python进行网络抓取非常陌生，从HTML中提取嵌套文本(确切地说，是div中的p)真的很难。这是我到目前为止所得到的： from bs4 import BeautifulSoup import urllib url = urllib.urlopen('http://meinparlament.diepresse.com/') content = url.read() soup = BeautifulSoup(content, 'lxml') 这可以很好地工作： links=soup.findAll('a',{'title&#

浏览 3提问于2016-04-20得票数 9

回答已采纳

2回答

使用python scrapy抓取动态内容

python、scrapy

我想抓取这个链接中的“日历”内容：我想知道我是否可以在不使用selenium的情况下使用python scrapy来抓取这些内容。因为我无法从网络选项卡中找到任何信息。谢谢!

浏览 0提问于2017-11-15得票数 0

1回答

C#中的多个Regex匹配

c#、python、regex

我已经习惯了用Python进行网络抓取，但现在我尝试在C#中做同样的事情，这似乎有点不同。我想要做的简单事情是用这个regex在python中完成： r'<a href="(.*?)">.+name="(.*?)"' 它只需抓取URL和与该链接相关的名称，并返回一个二维数组。这是如何在C#中完成的？

浏览 1提问于2013-11-13得票数 0

回答已采纳

3回答

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

python、web-scraping、beautifulsoup、python-requests

我刚刚开始使用python进行网络抓取。我使用了两个库来抓取:请求和漂亮的汤。我打开给定的URL，并在该页面上传递所需数据的日期间隔。当我按submit时，URL不会改变，但是数据在页面上。然后我就可以访问那个页面了。我就是这样访问这个网站的： r = requests.get("https://....... ") c = r.content soup = BeautifulSoup(c, "html.parser") 如果我想获取数据，我使用以下代码从存储数据的网站获取数据： all = soup.find_all("table", {

浏览 3提问于2017-02-20得票数 1

回答已采纳

1回答

为什么当我尝试用Python在网络上刮表时，将文本相乘？

python、selenium、web-scraping、beautifulsoup

我试着从一个网站上抓取一个表，一切都很好，没有出错，但是当我在csv中打开它时，我发现有一个多个web抓取: text+table，当我只需要一个我在网络上抓取的表的时候。这张表从53号开始。我不明白。为什么我的代码也在网络上抓取文本，而不仅仅是表呢？我的代码： from bs4 import BeautifulSoup from selenium import webdriver import time import unicodecsv as csv filename = r'output.csv' resultcsv = open(filename, &

浏览 2提问于2017-07-25得票数 1

回答已采纳

2回答

安装python包抓取时出错

python、scrapy

我正在尝试安装抓取，以便在python中进行网络抓取。但却犯了个错误。 Using cached PyDispatcher-2.0.6.tar.gz (38 kB) ERROR: Error [WinError 225] Operation did not complete successfully because the file contains a virus or potentially unwanted software while executing command python setup.py egg_info Preparing metadata (setup.py) ..

浏览 60提问于2022-09-07得票数 0

3回答

使用python抓取此网站

javascript、python

我是网络抓取的新手，并试图抓取以下网站：我正在尝试使用python进行抓取。我已经尝试了请求，PhantomJS，selenium chromedriver来获取html。但是我得到的html与我在使用google chrome进行检查时看到的html不匹配。我对抓取非常陌生，对html的了解很少，对JavaScript几乎一无所知。我的主要难题是获得我在google chrome中看到的html，这样我就可以开始抓取了。提前感谢！

浏览 30提问于2018-02-01得票数 0

1回答

使用python进行Web抓取并在网站上生成价格

python、html、web-scraping、web-crawler

所以基本上我正在做一个涉及网络抓取的学校项目。我知道如何使用python和整合web抓取，但是如何将抓取的数据放到网站上呢？如果它有帮助，我正在制作一个网站，从其他网站拉动价格，并在我的展示它。(像Trivago)我在网上找不到太多，所以任何帮助都是很好的。

浏览 11提问于2018-01-31得票数 1

回答已采纳

1回答

网络爬行器没有给出正确的bs4结果

python-3.7

我正试图从这里的在线亿万富翁网络富豪表中抓取信息> 到目前为止，这是我的代码。我在python shell上得到的结果是[]。一定是"findAll“出了问题，我想我用错了标签行。试着只用"find“ from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup import csv #Open page and grab html my_url = ('https://www.bloomberg.com/billionaires/') uClien

浏览 4提问于2019-11-01得票数 0

1回答

driver.find_element_by_css_selector运行速度较慢，接近页末

python、driver

我有一个from selenium import webdriver温度网络刮刀从使用Python.网页开头的网页抓取器几乎可以立即找到正确的高温和低温。然而，在页面的末尾，它变得越来越慢(需要7秒才能到达末尾)。这可能是因为抓取器必须经过更多的HTML才能找到正确的数据(？)。以下是代码的主要部分： high = driver.find_element_by_css_selector('#twc-scrollabe > table > tbody > tr:nth-child(' + str(j) + ') > td.temp > div

浏览 0提问于2019-05-31得票数 1

2回答

AttributeError：“NoneType”对象没有名为“find_all”的属性

python

我目前正在制作一个网络爬行器来抓取，而im在尝试抓取表格标题时遇到了麻烦。当我这样做的时候 head = soup.find('table',{"class" : "display responsive dataTable no-footer"}).find_all("tr") table_header = head.find_all('th') 它返回 Traceback (most recent call last): File ".\ncov2019live.py", line 13, in

浏览 1提问于2020-05-20得票数 0

2回答

使用selenium/chromedriver阻止网页自动重载

python、selenium、selenium-chromedriver

我正在使用python和selenium包和chromedriver来抓取网页。页面每30分钟自动重新加载一次(可能是通过java-script)，这会破坏我的抓取进度。网络抓取是通过脚本和与页面进行进一步交互所需的javascript ist来完成的。有没有可能通过chromedriver的标志来阻止页面重新加载呢？

浏览 24提问于2020-11-13得票数 0

回答已采纳

1回答

用python抓取javascript驱动的“下一步”按钮的麻烦

python、selenium、web-scraping

我正在尝试抓取一个网站，以学习python和网络抓取。特别是，我试图在这个页面上抓取足球数据：我的主要问题是如何抓取主数据表的所有页面，而不仅仅是第一个页面。我正在尝试使用selenium并分析当我点击“下一步”按钮时我的浏览器发送的请求，但我遇到了一些问题。感谢您的关注。

浏览 2提问于2018-08-30得票数 1

1回答

无法从web表中刮取新冠肺炎数据

python、web

我正在用Python研究新冠肺炎在科索沃的传播。问题是，从表上的web抓取中得到的结果是空的。网络是表，我需要它的记录：我使用了许多方法提取记录，但没有成功，使用的最新代码仅用于标题： import requests import pandas as pd from bs4 import BeautifulSoup link = 'https://corona-ks.info/?lang=en' # get web data req = requests.get(link) # parse web data soup = BeautifulSoup(req.co

浏览 2提问于2021-03-18得票数 1

回答已采纳

2回答

如何利用Python中的Web抓取构造数据框架

python、pandas、beautifulsoup、python-requests、tabulate

我可以通过Python中的web抓取从网页中获取数据。我的数据被提取到一个列表中。但不知道如何将该列表转换为数据框架。有任何方法我可以网络刮和直接获取数据到一个df？这是我的代码： import pandas as pd import requests from bs4 import BeautifulSoup from tabulate import tabulate from pandas import DataFrame import lxml # GET the response from the web page using requests library res = reque

浏览 7提问于2020-04-03得票数 0

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

Django是存储数百万产品价格历史的最佳方式？

mysql、django、postgresql

我正在运行一个网络抓取蜘蛛，每天抓取近100万个产品。我正在考虑两种方法: 1)将所有产品的价格历史记录存储在一个表中 product_id, date, price 但这将在该表中产生数百万条记录。 2)将数据存储在多个表中，并为每个产品创建单独的表。 Table1: product_id, current_price Table_product_id: date, price Table_product_id: date, price Table_product_id: date, price 但是我会有将近一百万张表！

浏览 1提问于2017-09-15得票数 0

2回答

在使用bs4进行web抓取时，总是得到无结果

python、web-scraping、beautifulsoup、python-requests

我是python的新手。我刚开始学习网络抓取，我决定为列出的产品名称做亚马逊的网络抓取。因此，我启动了chrome dev工具，并单击了amazon产品名称上的inspect，然后记录了这个类，在本例中，这个类的名称是'a-link-normal‘。问题是我得到的结果是无。这是代码- import webbrowser import requests from bs4 import BeautifulSoup source = requests.get('https://www.amazon.in/s?k=books&ref=nb_sb_noss') soup

浏览 7提问于2020-08-29得票数 1

1回答

为什么我的mysqldb代码不能工作？没有错误消息，没有数据

python、linux、web-scraping、debian、mysql-python

我写了一个网络抓取脚本，我保存到一个excel文件，然后上传到我的MySQL数据库服务器这个excel文件。我没有收到任何错误消息，但是MySQL中的表是空的。为什么？我错什么了？在这里，mysqldb部分： connection = MySQLdb.connect(host='localhost', user='root', passwd='', db='database1') cursor = connection.cursor() query = &#

浏览 2提问于2017-09-14得票数 0

回答已采纳

1回答

从网页中抓取数据

python、web-scraping

我试图从以下网页抓取数据，我需要一个表格格式的记分板。有人能帮我吗？我正在使用python3。我对网络抓取是个新手，对网页的内部原理不是很熟悉。提前感谢！我试着在urllib2中使用BeautifulSoup，等等，但是什么地方都没找到。

浏览 2提问于2019-11-01得票数 0

1回答

如何获取我在inspect元素中看到的html？

python、web-scraping

我正在用python编写一个网络刮板应用程序。我想要抓取数据的网站使用JS。如何获取在inspect元素中看到的源代码？

浏览 2提问于2014-05-31得票数 0

1回答

从页面中抓取所有细节

r、web-scraping、rvest

我试着从网站上抓取一些数据，但它只存储第一行。也许我应该运行一个循环或使用应用功能，但我不知道如何为网络抓取。这是我的代码： library(rvest) nobel.table <- read_html("https://niir.org/directory/directory/agriculture-agro-based-companies/z,,dc,0,32/index.html") table_node<-html_node(nobel.table, css = '.d-con') agro<-html_text(table_nod

浏览 1提问于2018-12-06得票数 0

回答已采纳

1回答

如何从网站上抓取cgi python脚本？

python、selenium、cgi、web-scraping

我刚刚开始学习使用selenium和mechanize进行网络抓取，并取得了很好的效果。我想知道是否有可能从一个网站上抓取一个cgi python脚本，这样我就可以离线复制网站的功能。下面是一个示例脚本。当我尝试抓取这个文件时，我得到了脚本的html输出，而不是脚本本身。这就是： <html> <head> <title>Hello Word - First CGI Program</title> </head> <body> <h2>Hello Word! This is my first CGI pr

浏览 1提问于2013-11-21得票数 0

1回答

转到DataFrame后网络抓取不完整

python、html、web-scraping、beautifulsoup

我正在从这个网站的https://www.iban.com/country-codes表中进行网络抓取，但是当把它放到DataFrame中时，抓取的信息是不完整的。 # Webscrape list of official countries with country codes url = 'https://www.iban.com/country-codes' response = requests.get(url) page = response.content scraping = BeautifulSoup(page, "lxml") scrap

浏览 6提问于2020-06-13得票数 1

1回答

除非按下搜索按钮，否则url无法获取数据

python

我正在尝试用python进行网络抓取。除非按下搜索按钮，否则链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?code=00883“不会获得任何数据。那么，如何为python webscraping解决这个问题呢？我正在尝试通过这个链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?code=883“来网络抓取股票数据，但由于url不起作用而失败。除非我手动按下搜索按钮，否则不会显示详细数据。你知道怎么修复它吗？ import

浏览 33提问于2019-10-01得票数 0

1回答

在刮伤中找到网页图像的位置

python、html、image、css、web-scraping

有没有办法在网站上找到图片的位置(即左和顶偏移量)？它能通过网络图像抓取来完成吗？我使用的语言是Python。

浏览 0提问于2013-12-01得票数 0

回答已采纳

1回答

从网络抓取开始

javascript、python、web-scraping

首先，我想让您知道，我对html和css非常陌生，目前我还不知道如何使用Java脚本。我在看关于如何制作网络刮刀的视频，我有一些问题：我看到了很多教程在python中进行web抓取，因为我非常了解python，所以我问自己，什么更适合web抓取？Python还是Java脚本，我应该使用哪一个？我可以将python程序与html连接起来吗？我需要使用网站抓取一个网站，我正在尝试做一些事情，从其他网站获取特定的数据，然后显示在我的网站上，这样人们就可以看到他们。你对如何开始有什么建议吗？请注意，我不是太好的英语，没有教程或视频的网页刮我的语言和借口在这篇文章的错误。

浏览 1提问于2019-12-31得票数 0

回答已采纳

1回答

环路上Selenium的网络抓取第一行和分页问题

python、selenium、for-loop、web-scraping、pagination

我试图用selenium抓取Javascript页面，但遇到了一些麻烦。我尝试执行for循环遍历所有行，然后从这些行中提取表数据。是这个网站： from selenium import webdriver import time url = 'https://datawrapper.dwcdn.net/vzezR/4/' driver = webdriver.Chrome('G:/Python Projects/venv/Lib/site-packages/chromedriver.exe') driver.get(url) time.sleep(2)

浏览 2提问于2021-03-26得票数 0

2回答