bs4无法正确打开本地存储的html页面

、

当我试图解析本地存储的网页副本时，漂亮的汤返回给我胡言乱语。我不明白为什么，因为当我将requests和bs4模块一起用于抓取任务时，我从未遇到过这个问题。这是我的代码from bs4 import BeautifulSoup as BS url_2 = r'/Users/davidferreira/Documents/coding_2/ak_screen

浏览 18提问于2017-03-14得票数 0

回答已采纳

1回答

BeautifulSoup (bs4)，html5lib，HTMLParseError:格式错误的开始标记，位于第1行，第11列

、、

我需要将源代码从网站复制到本地存储的html文件中，因为直接从url解析并不能捕获所有页面元素。我希望在源代码中提取一个表中的位置元素，用于地理编码。我的程序遍历几个页面的搜索结果，将每个页面的源代码写入本地存储的一个html文件。address元素大约只占每页材料的三分之一，所以去掉额外的元素以减小文件大小会很好。为此，我希望

浏览 15提问于2017-07-01得票数 0

回答已采纳

2回答

在本地内容上使用漂亮的汤

、、

我开始了一个研究项目，使用带有本地链接和镜像选项的wget抓取页面。我当时这样做是为了获得数据，因为我不知道这些网站会活跃多久。所以我有60-70个网站完全镜像的本地化链接坐在一个目录。我现在需要从他们那里得到我能做的。有没有一个很好的例子来解析这些页面呢？我意识到漂亮汤的设计是为了获取http请求并从那里解析。老实说，我对美汤还不是很了解，我的编程技能也不是很棒。现在我有一些时间投入其中，我想用简单的</

浏览 5提问于2017-01-10得票数 1

1回答

将BeatifulSoup输出保存到mongo并再次加载它

、、

我有一个爬虫，为我的应用程序获得某些网页。我想将关注点分开，爬虫应该是‘哑’的，只需获取页面，接受BeautifulSoup JSON，并将其保存到MongoDB中。编辑：插图 import json req = urllib2.Request('http://www.google.comres.read()) soup_js

浏览 3提问于2014-03-22得票数 0

回答已采纳

2回答

在Swift中从本地文件编辑和加载HTML

、、、、

我在我的项目包中存储了一个.html文件。当我在WebView.(UIWebview/WKWebview)中加载它时，会加载数据，但其中的表结构是不可见的。表的边框、列、行。这些值只是浮动的。在Chrome浏览器中，它正确地打开。webView.loadRequest(myURLRequest)iOS App UIWebView :Html页面能够

浏览 2提问于2018-07-19得票数 2

回答已采纳

3回答

我可以同时使用BeautifulSoup和Selenium吗？

、、

我正在刮一个有关产品的信息的网站。我需要登录才能访问我可以访问的产品。成功登录并导航到“产品详细信息”页面后，Selenium将一无所获。在过去的一周里，我一直在努力，但什么也没有成功。所以，我想知道我是否可以尝试BeautifulSoup来获得我想要的文本，在达到这个点之后？是可行的吗？请复述任何资料或阅读资料。

浏览 11提问于2021-06-21得票数 0

1回答

漂亮汤4代码针对不同的情况返回不同的答案

、、

我正在尝试使用以下BS4代码抓取网页：#url2 = "file:///C:/Users/abc.html"html = response.read()myuls = soup.findAll(&

浏览 1提问于2014-07-16得票数 0

1回答

使用下载PDF文件

、、、、

这里是我的代码：import requestsfrom bs4 import BeautifulSoup soup= BeautifulSoup(response.text, "html.parserfilename, 'wb') as f: f.writ

浏览 4提问于2020-07-21得票数 2

1回答

如何使用python获取动态web内容？

我想获取网页的动态内容。我在python中尝试过许多模块，比如机械化、urllib、BS4，并且在PHP中也使用了simple_html_dom模块，但是它们都没有帮助我正确地获取动态页面的内容。我试过这样的代码：url = '<url>'f = urllib2.urlopen(req) a = open("E://<url>.

浏览 3提问于2015-05-20得票数 0

回答已采纳

1回答

如何在Android文件管理器中直接打开html页面时正确设置背景图片的绝对路径

、、、、

我正在使用Android中的droidEdit创建一个简单的html页面，就是这么简单。在这个页面中有一个带有背景的div。这个背景是一个本地存储的图像，但是url必须(由于多种原因)是一个绝对路径，而不是一个相对路径，特别是像这样的路径: file:///sdcard/assets/images/test.gif 现在，如果我打开我<em

浏览 48提问于2019-09-01得票数 0

回答已采纳

3回答

如何保存本地存储中的状态？

、、、

active'); }; item.addEventListener('click',activeLink));我试了几种方法，却找不到办法 

浏览 8提问于2022-07-21得票数 1

2回答

使用python 3.5从静态HTML文件中提取数据

、、、、

我在本地机器上保存了静态HTML页面。我尝试使用简单的文件打开和BeautifulSoup。打开文件时，由于unicode错误和BeautifulSoup，它不会读取整个html文件，它适用于实时网站。#with beautifulSoupimport urllib.requestpage:

浏览 3提问于2017-01-03得票数 0

回答已采纳

2回答

IE9不支持localStorage？

、、、

为所有浏览器存储本地数据的最佳方式是什么？

浏览 0提问于2012-11-09得票数 5

回答已采纳

1回答

使用Selenium在一个烧瓶应用程序中进行网络抓取？

、、、、

我希望创建一个使用Selenium和BS4来抓取网站的烧杯后端。API将使用可以为<link>提供输入的任意前端进行调用。= driver.page_source但是，对于我想要抓取的页面，内容会迅速添加，但是如果您在新浏览器中打开页面因此，页面必须被打开，等待必须发生，然

浏览 5提问于2022-01-04得票数 0

1回答

bs4是否检索整个网页，即使需要物理滚动才能获得所有元素？

、

我对编码很陌生，我正在用Python学习，如果我违反了这篇文章的任何规则，我也很抱歉。我已经在这里上传了一个html代码示例，在这里您可以看到所讨论的元素：我不是在这里要求一个特定的解决方案，只是一些指针，我应该使用bs4中的哪些功能来完成这个任务，或者，如果我需要通过另一个外接程序来完成它呢

浏览 0提问于2018-09-14得票数 1

回答已采纳

1回答

升级后: rCharts在rmarkdown中不起作用

、

在我升级到rCharts版本0.4.5之后，我在我的rmarkdown文件中看不到绘图了。我已经生成了一个最小的rmd示例，其中我再也看不到绘图(如果我在浏览器中打开输出)。我完全不知道这是哪个包造成的。请注意，如果我使用$save模式，并且只导入创建的html文件，如示例2所示，则可以很好地工作。我从highcharts演示中创建了一个最小示例。也帮了我的忙。设置打印

浏览 0提问于2015-05-12得票数 1

1回答

引导3.1.1不工作于Html5shiv的IE8库

、、、

我在我的网页中使用了引导3.1.1，并添加了html5shiv库和响应库来修复这个问题，但是它没有在internet 8上运行。<html lang="en"> <meta http-equiv="X-UA-Compatible" content--[if IE]> <script src=&quo

浏览 4提问于2014-08-08得票数 0

1回答

Python cgi脚本无法打开本地目录中的html文件

、、、

param1=Something的href )时，它会启动一个cgi脚本，这个脚本用传递的值执行一些操作，最后生成一个新的网页，存储在我的机器本地(例如，在类似/home/user/web/out/的路径中好吧，我已经尝试在浏览器中自动打开这个新页面两天了，尝试了所有我在文档和论坛中搜索到的解决方案。我再次尝试使用webbrowser.open()，但后来我意识到我不

浏览 1提问于2013-10-09得票数 2

1回答

角度登录页面

、、

我想知道人们会如何使用Angular应用程序的登录页面，该应用程序完全独立于应用程序，一旦通过身份验证，将被传递到主要的angular应用程序中。因此，类似于一旦通过身份验证就会传递到index.html的Signin.html页面。我想不通的是，将鼠标加载到signin.html的主应用程序中，然后如何处理迁移到有自己模块的index.html，以及是否可以在登录-> in

浏览 1提问于2015-05-01得票数 0

1回答

如何正确处理android网页包装应用程序的网页视图中的注销？

、、

为了控制登录过程以获得自动登录，我在本地创建了一个登录页面，并且登录过程工作正常。登录页面将在本地存储用户登录信息，以便下次用户打开应用程序时，将跳过登录页并显示登录网页。然而，我遇到了登出的问题。用户如何返回本地登录页？我想的是在网页上创建一个注销栏，有一个登录按钮there.Are有更好的方法吗？更糟糕的是，网页上还有一个注销按钮，该按钮将引导用户进入在线登录页面，该

浏览 5提问于2014-08-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup (bs4)，html5lib，HTMLParseError:格式错误的开始标记，位于第1行，第11列

在本地内容上使用漂亮的汤

将BeatifulSoup输出保存到mongo并再次加载它

在Swift中从本地文件编辑和加载HTML

我可以同时使用BeautifulSoup和Selenium吗？

漂亮汤4代码针对不同的情况返回不同的答案

使用下载PDF文件

如何使用python获取动态web内容？

如何在Android文件管理器中直接打开html页面时正确设置背景图片的绝对路径

如何保存本地存储中的状态？

使用python 3.5从静态HTML文件中提取数据

IE9不支持localStorage？

使用Selenium在一个烧瓶应用程序中进行网络抓取？

bs4是否检索整个网页，即使需要物理滚动才能获得所有元素？

升级后: rCharts在rmarkdown中不起作用

引导3.1.1不工作于Html5shiv的IE8库

Python cgi脚本无法打开本地目录中的html文件

角度登录页面

如何正确处理android网页包装应用程序的网页视图中的注销？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐