Python BeautifulSoup返回的网页与我看到的网页不同_Python BeautifulSoup中的网页抓取_使用Python进行网页抓取: BeautifulSoup的问题 - 腾讯云开发者社区

python、python-3.x、web-scraping、python-requests

我试着用Beautifulsoup4 python模块通过web抓取来获取网页的标题，它返回了一个字符串“无法接受！”作为标题，但是当我通过浏览器打开网页时，标题是不同的。我试着循环浏览链接列表和所有网页的标题，但是它返回的字符串是“不能接受的！”所有的链接。这里是python代码 from bs4 import BeautifulSoup import requests URL = 'https://insights.blackcoffer.com/how-is-login-logout-time-tracking-for-employees-in-office-done-by

浏览 18提问于2022-03-01得票数 0

回答已采纳

2回答

在python中使用BeautifulSoup爬行sqlite网站时无法获得正确的href值

python、html、sqlite、beautifulsoup、web-crawler

我试着使用BeautifulSoup在sqlite下载网页上获得sqlite下载链接。我可以看到正确的href值时，检查网页的铬。但是，我不能像使用代码那样使用python获得href值。 import urllib.request import re from bs4 import BeautifulSoup url = "https://www.sqlite.org/download.html" data = urllib.request.urlopen(url).read() parsed_html = BeautifulSoup(data, 'html.

浏览 9提问于2022-08-18得票数 0

回答已采纳

1回答

网络抓取:没有使用BeautifulSoup(page.content，'html.parser')返回正确的内容

python、html、web-scraping

我试图从AJIO网站上进行抓取，但Python获取的内容似乎与我在检查确切网页的元素时看到的内容不完全相同。在后端创建HTML页面的页面上似乎存在某种java代码，但是当我尝试用Python获取页面内容时，它会向我展示java代码，而不是确切的HTML页面。有人能对此提出解决方案吗？下面是我正在使用的代码。在下面的代码中，我在最后一行后得到错误"TypeError：'NoneType‘object是不可迭代的“，这是因为页面没有通过"soup=BeautifulSoup(page.text，’html.parser‘)被正确地获取。”我可以在检查HTML页面时看到“预

浏览 8提问于2021-12-28得票数 0

回答已采纳

3回答

没有搜索必应的结果

python、web-scraping、beautifulsoup、python-requests

我使用下面的代码来刮必应的结果，当我看到被刮过的网页时，它说“python没有结果”。但是当我在浏览器中搜索时，就没有问题了。 import requests from bs4 import BeautifulSoup term = 'python' url = f'https://www.bing.com/search?q={term}&setlang=en-us' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') print

浏览 11提问于2020-07-27得票数 2

回答已采纳

2回答

用Python抓取。无法获得想要的数据

python、web-scraping、beautifulsoup

我试图刮网站，但我遇到了一个问题。当我试图抓取数据时，它看起来与我在google上看到的和我从python中得到的有所不同。我从那里得到了这个，我试着去搜集选举结果。我使用这个脚本来检查网页的HTML部分，我注意到它们是不同的。我不需要任何类，比如节包装器。 page =requests.get('http://edition.cnn.com/election/results/states/arizona/house/01') soup = BeautifulSoup(page.content, "lxml") print(soup) 有人知道问题出在哪里吗？

浏览 5提问于2017-01-30得票数 1

回答已采纳

1回答

Python web抓取带有过滤器的表

python、python-3.x、web-scraping、python-requests

在网页抓取表格时，我遇到了提取文本的困难，我认为页面上的过滤器是罪魁祸首。我尝试隔离所有的"tr“和"th”元素，但似乎无法将底层文本放入Python中。我做错了什么？我的代码： from bs4 import BeautifulSoup import requests page_link ='https://www.ersteliga.hu/stats#/players/1945/regular/points' page = requests.get(page_link) html = page.content soup = BeautifulSoup(

浏览 15提问于2019-10-25得票数 1

回答已采纳

1回答

请求与the浏览器中看到的相同的网页

python-3.x、request、python-requests

我正在尝试抓取一些网页，但我遇到了页面内容与我在Firefox中看到的内容不同的问题这是我的代码： import requests from bs4 import BeautifulSoup url = "https://www.sareb.es/es_ES/inmuebles" with requests.get(url, verify = False) as html_file: soup = BeautifulSoup(html_file.content, "html.parser") soup.find_all("h3")

浏览 17提问于2019-03-07得票数 0

回答已采纳

2回答

网刮/漂亮汤/有时什么都不回？

python、web-scraping、beautifulsoup

我尝试从一个网页上刮掉的一些信息，在一个页面上它工作得很好，但是在另一个网页上它不起作用，因为我只得到一个零返回值。此代码/网页运行良好： # https://realpython.com/beautiful-soup-web-scraper-python/ import requests from bs4 import BeautifulSoup URL = "https://www.monster.at/jobs/suche/?q=Software-Devel&where=Graz" page = requests.get(URL) soup = Beautif

浏览 4提问于2020-04-13得票数 1

回答已采纳

2回答

用Python解析网页的搜索结果

python、parsing、web、beautifulsoup、urllib

最近，我开始在python中编写一个程序，它允许用户很容易地将任何动词连在一起。为此，我使用urllib模块打开相应的共轭网页。例如，动词"beber“将有以下网页： "“ 要打开页面，我使用以下python代码： source = urllib.urlopen("http://wwww.spanishdict.com/conjugate/beber").read() 这个源包含了我想解析的信息。但是，当我像这样用它做一个BeautifulSoup对象时： soup = BeautifulSoup(source) 我似乎失去了我想要解析的所有信息。生成B

浏览 2提问于2013-02-23得票数 4

回答已采纳

1回答

当我抓取一个循环而不是直接访问它时，这个网页是如何阻止我的？

python、web-scraping

我正在试着抓取一组网页。当我直接从一个网页上抓取时，我就能够访问html了。但是，当我迭代pd数据帧来抓取一组网页时，即使是只有一行的数据帧，我也会看到一个截断的html，并且无法提取我想要的数据。迭代通过1行的数据帧： import pandas as pd from urllib.request import urlopen from bs4 import BeautifulSoup import requests import re first_names = pd.Series(['Robert'], index = [0]) last_names = pd.Se

浏览 8提问于2019-03-20得票数 0

回答已采纳

2回答

使用漂亮的汤python访问html源代码中的不可见元素

python、html、web-scraping

我正在尝试刮的所有按钮的链接(EP 212,211,210，.)在这个页面上，使用了漂亮的汤4和python 3。这是我用来检索网页源代码的代码： from bs4 import BeautifulSoup import requests as rq webpage=rq.get('https://gogoanime.pe/category/boruto-naruto-next-generations').text SourceCode=BeautifulSoup(webpage,'html.parser') print(SourceCode.prettify

浏览 0提问于2021-08-22得票数 1

回答已采纳

3回答

在python中获取已执行的javascript内容

javascript、python-2.7、browser、request

有没有办法从网页中获取已执行的javascript内容？我尝试过请求+ BeautifulSoup，机械化，这些让我产生了网页的“源代码”，而不是执行的javascript。例如，这个网站:- 正如您可以看到的，在源代码中有，但是，当您检查元素时，您将看到执行的代码。现在，我是否可以在python中获得执行的代码？请提示一下，因为我已经尝试过用机器模拟浏览器，它的功能和reuqest一样。谢谢

浏览 1提问于2015-09-29得票数 8

回答已采纳

2回答

美丽的汤和表格抓取- lxml与html解析器

python、web-scraping、html-parsing、beautifulsoup、lxml

我正在尝试使用BeautifulSoup从网页中提取表格的超文本标记语言代码。 <table class="facts_label" id="facts_table">...</table> 我想知道为什么下面的代码与"html.parser"一起工作，并打印回none，如果我将"html.parser"更改为"lxml"。 #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpag

浏览 3提问于2014-09-08得票数 14

回答已采纳

1回答

BeautifulSoup4返回错误的超文本标记语言？

python、html、web-scraping

我正在尝试使用Beautifulsoup在Indeed.com上通过网络抓取招聘信息。但是，当我抓取URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同。这会导致我的应用程序获得一些不在我试图抓取的网页上的招聘信息。例如，当我抓取时，我的程序找到以下公司名称： [['Nordic Tech House', 'Beaubi', 'NO COMPANY NAME AVAILABLE', 'National Pen', 'SWEDISH STOCKIN

浏览 0提问于2019-07-10得票数 2

1回答

beautifulSoup python无法从iframe获得src

python、python-3.x、beautifulsoup、python-requests

我正试图从一个使用BeautifulSoup的python网页中提取视频，但我遇到了一些问题。当我转到网页上查看html元素时，我会看到这个标记。 <iframe id="iframe-embed2" src="https://player.voxzer.org/view/1167612b04f6855ecc4bb5e0" allowfullscreen="true" webkitallowfullscreen="true" mozallowfullscreen="true" width="100%

浏览 11提问于2021-05-17得票数 0

回答已采纳

1回答

我从Python中的请求模块获得的html代码与我从浏览器获得的相同网页的源代码不同。

python、html、beautifulsoup、python-requests、html-parsing

在使用Python中的requests.get()方法时，我得到的响应对象产生的html代码与我从浏览器(Chrome)获得的源代码不同。这使我很难使用BeautifulSoup模块解析代码。有什么解决办法吗？我犯了什么错误吗？下面是我的python脚本。我从chrome获得的网页的源代码在r类中有一个r id，它有一个href链接。所以我想我会得到一个链接。但它一直在返回一个空的列表。 import requests,bs4,webbrowser res=requests.get('https://www.google.com/search?q=wind+river')

浏览 2提问于2020-07-31得票数 0

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

python、web-scraping、beautifulsoup、data-extraction

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频的点赞/浏览量/评论数，但评论部分的信息没有包含在HTML文件中。我使用的浏览器是Chrome，系统是Ubuntu 18.04.1 LTS。这是我使用的代码(在python中)： from urllib.request import urlopen from bs4 im

浏览 19提问于2019-03-25得票数 1

回答已采纳

2回答

*将html保存为文本

python、html、javascript

我有一个javascript代码，它只显示html页面的源代码。 javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='<pre><html&

浏览 1提问于2012-01-12得票数 4

1回答

使用Python将<pre>标记内的文本从HTML复制到字符串变量

python、text、tags、copy

我试图用python抓取网页响应，但遇到了问题。在这种情况下，我想要的网页，给我一个输出响应(这是json文本)，它在一个前置标签中，如下所示： <pre style="word-wrap: break-word; white-space: pre-wrap;">{"WANTED TEXT AS JSON TEXT"} </pre> 我这样做了： import requests from bs4 import BeautifulSoup url = "urlforwantedwebpage" (THIS

浏览 15提问于2021-02-22得票数 0

3回答

在浏览器(由BeautifulSoup生成)中直接从Python启动HTML代码

python、html、python-3.x、beautifulsoup

我已经使用Python3.3的BeautifulSoup成功地从网页中提取了所需的信息。我还使用了BeautifulSoup生成新的超文本标记语言代码来显示此信息。目前，我的Python程序打印出HTML代码，然后我必须复制、粘贴并另存为HTML文件，然后我可以在浏览器中测试它。所以我的问题是，有没有办法用Python语言在浏览器中启动由BeautifulSoup生成的HTML代码，这样我就不需要使用复制粘贴的方法了？

浏览 2提问于2014-01-30得票数 26

回答已采纳

1回答

有没有办法从网站上的卷影根目录中提取信息？

python、python-3.x

我正在设置代码来检查任何网址的声誉，例如网站"“上的首先，我要做的最基本的事情是使用BeautifulSoup提取所有的网站内容，但是我要寻找的信息似乎是在阴影根(打开) -- div.detections和span.个别-检测中。从网页结果中复制的元素示例：未检测到此URL的引擎我是Python新手，不知道您是否可以分享提取信息的最佳方法尝试了requests.get()函数，但它没有提供所需的信息 import requests import os,sys from bs4 import BeautifulSoup import pandas as pd url_che

浏览 11提问于2019-07-31得票数 3

回答已采纳

1回答

BeatifulSoup无法从滚动页面加载所有图像

python、selenium、beautifulsoup、html-parsing

我正在尝试创建一个包含门和窗的图像的数据集。为此，我有兴趣从提供大量收藏的网站之一下载图片。网页的唯一问题是，为了加载更多的图像，我需要向下滚动。稍后，我将使用BeautifulSoup解析所有的超文本标记语言内容，但我只能下载少数图像。 <code>A0</code> 网页的超文本标记语言使得在标签<code>D1</code>内存在<code>D2</code>。感兴趣的图像共享类<code>D3</code>。分页的数量几乎没有任何影响，因为每次下载的图像数量都是随机的。我用Beautiful

浏览 15提问于2020-08-05得票数 0

回答已采纳

1回答

Web抓取:像Chrome一样更新数据？

javascript、python、selenium、beautifulsoup、screen-scraping

我在Python中遇到的所有关于web抓取的文章都引用了BeautifulSoup和Selenium作为从网页中检索HTML和JavaScript内容的主要工具。然而，我还没有找到一种方法来自动更新从同一网页接收的数据，而不需要向它发送新的请求。在Python中是不是不可能做你在Google Chrome中会做的事情，也就是说，简单地打开一个网页，然后看到它正在由主机本身自动更新？

浏览 9提问于2020-02-17得票数 0

回答已采纳

1回答

用BeautifulSoup超链接访问表格数据

python、html、parsing、web-scraping、beautifulsoup

对于使用BeautifulSoup，我仍然有一些不理解的地方。我可以用它来解析网页的原始HTML，这里是"example_website.com"： from bs4 import BeautifulSoup # load BeautifulSoup class import requests r = requests.get("http://example_website.com") data = r.text soup = BeautifulSoup(data) # soup.find_all('a') grabs all element

浏览 2提问于2015-10-14得票数 2

回答已采纳

1回答

用Python和BeautifulSoup实现多边形坐标的网络抓取

python、web-scraping、beautifulsoup

我试着从这个网页和许多类似的网页中搜集信息，查看页面源代码时，页面顶部的多边形坐标可用，但在检查多边形元素时不可用。有人知道如何使用python中的BeautifulSoup包将这些坐标拼凑成数据帧的一列吗？这是我用来访问网站的代码 from requests import get url = 'http://knowyourcity.info/settlement/1846/5119249' response = get(url) print(response.text[:500]) from bs4 import BeautifulSoup html_soup = Be

浏览 0提问于2020-08-08得票数 0

2回答

HTML解析没有给出响应

python、html、beautifulsoup、html-parsing、urllib2

我试图解析一个网页，这是我的代码： from bs4 import BeautifulSoup import urllib2 openurl = urllib2.urlopen("http://pastebin.com/archive/Python") read = BeautifulSoup(openurl.read()) soup = BeautifulSoup(openurl) x = soup.find('ul', {"class": "i_p0"}) sp = soup.findAll('a href'

浏览 2提问于2014-03-18得票数 1

回答已采纳

1回答

在Ipython Notebook中导入包

python、module、beautifulsoup、ipython-notebook、anaconda

当我尝试将BeautifulSoup导入到IPython Notebook中时，我得到一个错误消息：ImportError: No module named BeautifulSoup。该程序包已安装，并且在空闲状态下可以正常工作。当我检查系统版本时，它返回2.7.5 |Anaconda 1.7.0 (64-bit)| (default, Jul 1 2013, 12:37:52) [MSC v.1500 64 bit (AMD64)]。这似乎与我在IDLE中运行的python版本相同，只是去掉了Anaconda。我如何解决这个问题？

浏览 2提问于2013-10-18得票数 1

1回答

将子href提取到BeautifulSoup列表

python、beautifulsoup、href、urllib2

我正在学习python，并使用BeautifulSoup来抓取一些网页。我要做的是找到第一个'td‘的子'a’，提取href并将其添加到列表中。如何以及在何处将href添加到单元格文本？ import urllib2 from BeautifulSoup import BeautifulSoup def listify(table): """Convert an html table to a nested list""" result = [] rows = table.findAll('t

浏览 2提问于2013-01-10得票数 0

回答已采纳

3回答

为什么我不能使用urllib来访问这个页面的完整html呢？

python、beautifulsoup、urllib

我是新的网页刮和学习的目的，我想找到所有的网站的href链接。但我发现我的代码在那个网站上只找到一个链接。但我的网页来源，它有许多链接，但没有打印。我也打印完整的页面，其中只有一个链接包含。我做错什么了？请纠正我。下面是我的python代码： from urllib.request import urlopen from bs4 import BeautifulSoup import re data=[] html = urlopen('https://retty.me') soup = BeautifulSoup(html,'lxml') print(so

浏览 1提问于2018-04-16得票数 1

回答已采纳

1回答

无法搜索google的结果

python、web-scraping、beautifulsoup、python-requests

我对python很陌生，我正在向automating boring stuff with python学习，所以我现在在书中的网页抓取章节中。所以，我只想刮一下搜索结果的标题。这是我的密码- import requests from bs4 import BeautifulSoup import webbrowser term = 'python' req = requests.get('https://www.google.com/search?q=' + term) req.raise_for_status() soup = BeautifulSoup(

浏览 2提问于2020-08-31得票数 0

回答已采纳

1回答

无法让PHP接受来自漂亮的soup脚本的井号

php、python、utf-8、beautifulsoup、utf

所以我有一个从事件网页中提取信息的脚本。网址是：这个php脚本正在调用一个python脚本(它是for循环的一部分)： ${"tmp" . $i} = utf8_encode (exec("python myscrape.py ${"eu" . $i}")); 它传递一个URL。python脚本如下所示： # -*- coding: utf-8 -*- import sys URL = sys.argv[1] #$URL = 'http://everguide.com.au/melbourne/event/2012-jul-14/col

浏览 2提问于2012-07-12得票数 1

回答已采纳

1回答

允许用户直接从Python中的URL中选择网页元素

python、selenium、selenium-webdriver、css-selectors、element

我一直试图找到一种方法，允许用户在Python的网页上选择一个元素。在下面的代码中，您可以看到我已经预定义了一个元素。我想要的是用户能够悬停在网页上的元素上，然后单击它，然后返回一个值给python。与铬中的元素选择器非常相似。这个是可能的吗？任何想法 element = f"#pdp__select-size > li:nth-child({nth}) > button" (ps我已经导入了BeautifulSoup4和Selenium来帮助抓取的网页) 谢谢金吉

浏览 5提问于2021-11-16得票数 0

2回答

美汤输出错误

python、web-scraping、beautifulsoup

我正在尝试使用上的beautifulsoup从网页中抓取数据。但是，结果与我从page source viewer中得到的结果非常不同。首先，产生了大量的errors。例如，我们有 r = requests.get(link) soup = bs4.BeautifulSoup(r.text) 然而soup.title给出了 <title>404: Not Found - GameSpot</title>。我实际上想刮的数据甚至没有出现。是因为网页中包含了javascript吗？如果是这样的话，我怎样才能避开这一切呢？

浏览 4提问于2015-07-11得票数 0

1回答

无法从www.tradingview.com获得特定的参考资料

parsing、beautifulsoup

我开始学习使用Python中的BeutifulSoup进行网页解析。我正试图从获得股票的新闻项目。我专门尝试的网页是。我在Python中使用BeautifulSoup。从下面的网页中，我试图让所有的href都有一个类:card-wSNJR2eqCardLink-wSNJR2eq。这不返回任何信息。我使用了以下代码： for a in html.find_all('a', class_="card-wSNJR2eq cardLink-wSNJR2eq"): print ("Found the URL:", a['

浏览 4提问于2022-07-25得票数 0

回答已采纳

2回答

从请求库获取方法似乎返回主页而不是特定的URL

python、web-scraping、get、python-requests

总的来说，我对Python &面向对象的编程很陌生。我试图建立一个简单的网络刮刀，以创建数据框架，从NBA合同数据在篮球参考网站。我计划将请求库与BeautifulSoup一起使用。但是，get方法似乎是返回站点的主页，而不是与我提供的URL相关的页面。我为团队的契约页面()提供了一个URL，但是当我打印html时，它看起来像是属于主页的。我在网上找不到任何关于其他人有这个问题的文件. 我在用Spyder IDE。 # Import library import requests # Assign the URL for contract scraping url = '

浏览 1提问于2019-10-09得票数 2

回答已采纳

5回答

Python/BeautifulSoup:从Web页面抓取数据

python、beautifulsoup

我是Python编程的初学者，我正在努力学习如何抓取网页。我要做的就是从这个中抓取数据我正在尝试从上面的页面中抓取ISSUE DATE (如果你打开网页，你可以看到ISSUE DATE )。我在这方面遇到了一些问题。这是我为此编写的代码。 import BeautifulSoup import urllib2 url = "http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&

浏览 0提问于2012-04-10得票数 0

1回答

抓取无显示隐藏可见性python

python、web-scraping、beautifulsoup、visibility、hidden

我试图用python中的Beautifulsoup从一个网站上抓取数据，当我解析页面时，我想抓取的信息没有显示出来，相反，我看到了以下内容： <span class="frwp-debug hidden" style="display: none!important; visibility: hidden!important;"> 解析后的html与我检查页面时看到的不同。这是我的代码： site = "http://www.fifa.com/worldcup/stories/y=2017/m=11/news=australia-292

浏览 3提问于2018-06-04得票数 0

2回答

Python中的TypeError -美丽的汤

python、beautifulsoup、typeerror

我正在做这个网页的，我应该得到所有的公司名称国家/地区州/省但是在这个名字旁边有一个rss链接，所以，我不会得到结果并显示一个typeError。这是我的代码： #!/usr/bin/env python from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() url = "http://www.crmz.com/Directory/Industry806.htm" page = mech.open(url) html =

浏览 5提问于2014-05-19得票数 1

回答已采纳

1回答

请求请求的HTML内容与浏览器请求的HTML内容不同

python-3.x、web-scraping

我正在尝试从一个网站的html中提取几个元素，使用的是python漂亮汤库。问题是HTML from响应与我在浏览器上看到的不同。代码如下： import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://www.nutritionix.com/brands/restaurant' resp = requests.get(url,verify=True) soup = BeautifulSoup(resp.content) 我尝试使用urllib库并使用浏览器代理参数，但不起作

浏览 0提问于2016-11-19得票数 0

1回答

在抓取网站时找不到带有“检查元素”的div

python、web-scraping、beautifulsoup

我有一个python脚本，它下载一个html页面。我在找这个div： <data-a-target="clip-thumbnail-link" 当我检查网页上的元素时，这个div就在那里，我看到它。但它不会出现在我的打印声明中 from bs4 import BeautifulSoup from urllib import urlopen BASE_URL = "https://www.twitch.tv/lethalfrag/clips" def get_category_links(section_url): html = urlope

浏览 0提问于2018-01-18得票数 0

回答已采纳

3回答

与我从“检查”中看到的源不同的页面HTML源

python、html、python-3.x、web-scraping

我试着用Python在表中节省按需和中断信息的频率。通过单击浏览器上的“检查”(我使用的是Chrome)并查看源代码，我发现表中的所有数据都存储在< tbody >和< /tbody >标记之间。但是，在我的代码中，当我 import requests from bs4 import BeautifulSoup source = requests.get('https://aws.amazon.com/ec2/spot/instance-advisor/') soup = BeautifulSoup(source.text, 'lxml&#

浏览 0提问于2019-01-23得票数 1

回答已采纳

2回答

python中的Webscraping调用返回空值

beautifulsoup、python-requests

我正在尝试在Python2.0中从MCX网站获取不同商品的最新交易价格(LTP)。下面是我使用的代码。 import requests from bs4 import BeautifulSoup url = 'https://www.mcxindia.com/market-data/market-watch' page = requests.get(url) soup = BeautifulSoup(page.text, 'html.parser') soup.findAll('div',attrs={'class':'l

浏览 17提问于2018-09-09得票数 1

回答已采纳

2回答

Python Web抓取没有得到所有的HTML

python、html、web-scraping、beautifulsoup

我对Python中的web抓取非常陌生，现在正在使用BeautifulSoup进行解析。一旦我有了超文本标记语言数据，我就试图访问"< div id=“根目录”>.< /div>“下的内容，但如果我在实际网站上单击”检查“，我将无法获得显示的所有超文本标记语言。我如何访问该网页，或者这是网站阻止我访问网页上的信息的方式？如果这没有意义，我要说的是有“。在div中，而不是让我看到更多子类别(当我单击网页上的inspect时，我会看到)。这是我美丽的汤码。 from urllib.request import urlopen as uReq from bs4 i

浏览 2提问于2020-07-13得票数 0

1回答

解析美丽的汤时出现问题

python、parsing、beautifulsoup

我正在尝试解析下面的网页。代码如下： import urllib2 import sys from BeautifulSoup import BeautifulSoup url = 'http://www.etsy.com/teams/list' source = urllib2.urlopen(url) soup = BeautifulSoup(source) print soup.prettify() print len(soup('h3')) #to print the no of occurances of h3 h3s = soup.findA

浏览 1提问于2011-09-01得票数 1

1回答

Python 64位没有存储32位python那么长的字符串

python、python-2.7、beautifulsoup、32bit-64bit

我有两台计算机，都运行64位Windows 7，一台机器有32位的python，一台运行python 64位.这两台机器都有8GB的RAM。我正在使用BeautifulSoup来抓取网页，但是在我的python64机器上遇到了一些问题。我已经知道，64位len(str(BeautifulSoup(request.get(http://www.sampleurl.com).text)))的输出只返回92520个字符，但是在我的python32 32位机器上的同一静态站点上，它返回了135000个字符。在过去的某个时候，在我的python64 64位机器上，我有python64 32位，但是卸

浏览 3提问于2015-02-19得票数 1

回答已采纳

1回答

在BeautifulSoup Python上查找底部时出现的问题

python、beautifulsoup

我正在尝试点击网页上的一个按钮，但是我找不到href。我的代码如下： from bs4 import BeautifulSoup from selenium import webdriver browser = webdriver.Chrome() ref = 'https://www.leychile.cl/Consulta/buscador_experto' browser.get(ref) python_button = browser.find_element_by_xpath("//input[@type='button'][@val

浏览 13提问于2020-01-31得票数 0

回答已采纳

3回答

漂亮的汤不返回HTML文件中的所有内容吗？

python、html

这里的HTML新手，所以我可能会误解一些关于HTML文档，所以请原谅我。我使用Beautiful来解析Python中的web数据。这是我的代码： import urllib import BeautifulSoup url = "http://www.nba.com/gameline/20160323/" page = urllib.urlopen(url).read() soup = BeautifulSoup.BeautifulSoup(page) indicateGameDone = str(soup.find("div", {"class&#

浏览 15提问于2016-04-07得票数 0

回答已采纳

2回答

如何修复ModuleNotFoundError:没有名为bs4的模块

python、python-3.x、beautifulsoup

我正在尝试创建一个程序，从网页上获取一组数字，并将它们相加在一起。我使用了我安装的漂亮汤模块(在命令提示符下运行"pip install beautifulsoup4“)。代码： from bs4 import BeautifulSoup web=request.urlopen('http://py4e-data.dr-chuck.net/comments_845350.html').read() x = BeautifulSoup(html) tags=x('span') sum=0 for tag in tags: sum = sum+i

浏览 13提问于2021-04-08得票数 1

2回答

如何使用Python从由Javascript填充的网站获取数据？

javascript、python、html、web-scraping、beautifulsoup

我想从网站获取一些数据/值。为此，我使用了beautifulsoup，当我尝试从Python脚本中获取它们时，字段是空白的，而当我检查网页的元素时，我可以清楚地看到表行数据中的值是可用的。当我看到HTML源代码时，我注意到那里也是空白的。我想出了一个原因，网站使用Javascript从自己的数据库中填充相应字段中的值。如果是这样，那么我如何使用Python获取它们？

浏览 1提问于2015-02-27得票数 0

1回答

Python:使用requests html进行Web抓取不起作用

python、python-3.x、web-scraping、python-requests、python-requests-html

我在试着从trading website上抓取数据。我从python 'requests‘库开始，但它返回的HTML页面与我浏览器上的页面不同。我观察到网页在加载丢失的信息时有一个很小的延迟，经过研究，我发现这个问题可以使用‘requests html’包来解决。但是，'requests- HTML‘库返回的HTML与'requests’相同。我知道这可以通过使用selenium来解决，但是有没有办法使用上面提到的库来解决这个问题呢？这是我的代码 from bs4 import BeautifulSoup import requests import time

浏览 14提问于2021-01-08得票数 0