使用urllib时，无法获取java脚本标记后的文本

、、

我正在尝试使用urllib获取html页面。但是在使用urllib请求url时不提取端口。预期结果应与上述结果相同。在实际结果中，我没有在java脚本<

浏览 20提问于2019-07-26得票数 0

2回答

使用BeautifulSoup get_text或findAll(text=True)时无法获得可见文本

、、

我正在尝试使用bs4和python3.4.1从网页中提取可见文本。为此，我从汤中提取所有脚本和样式元素，然后继续从剩余的html中获取文本。为了测试目的，我使用x，y，z来观察我对汤的修改。html = urllib.request.urlopen('http://www.skilledup.com/articles/reasons-to-learn-python').re

浏览 5提问于2016-02-04得票数 0

回答已采纳

1回答

使用Scrapy 'regex定义‘

、、

我一直试图生成一个脚本，从网站中抓取数据。我生成了一个pythonscrapy2.7脚本来从网站上获取一段文本(我目前的目标是什么)，但似乎无法让它发挥作用。我怀疑这是因为我没有正确地配置我的regex来识别我试图从其中提取的span标记。有没有人知道我可能做错了什么，我是怎么解决的？import re url = "https:/

浏览 8提问于2016-05-02得票数 3

回答已采纳

1回答

从给定的URL提取CSS/JSS

、、

当前正在尝试编写一个python脚本，该脚本可以从给定的URL提取CSS/JSS。偶然发现了urllib3，它帮助我在PoolManager()实用程序的帮助下收集了给定网址的超文本标记语言。使用下面的简短代码，我能够提取给定URL的HTML，然后将其存储在一个文件中。import urllib3x = http

浏览 1提问于2015-06-18得票数 0

1回答

如何使用Python获取脚本中的JSON数据

、、

我正在尝试获取在检查特定URL的页面源代码时看到的JSON数据。这个URL有多个标记，但是其中只有一个标记包含JSON格式的数据。下面是我目前的实现：from bs4 import BeautifulSoupimport json page = urllib<

浏览 0提问于2018-10-26得票数 0

2回答

通过python加载网站内容

、

例如，我想加载博客的一些帖子并将它们显示在我自己的site.How中。我可以这样做吗？

浏览 2提问于2011-03-25得票数 1

1回答

如何在调用堆栈api而不是'application/ json‘时获取json数据的纯文本？

、、

如何以json数据的纯文本形式获取堆栈api的响应，而不是响应application/json，因为第一种响应方式可以由程序直接处理。

浏览 0提问于2010-12-16得票数 0

2回答

使用BeautifulSoup从html中提取文本，但脚本标记的内容除外

、、、

getCurrentLocationVal("loc_loads1",29.45218856,59.38139268,1);</span>所以我编写了python代码如下from bs4 import BeautifulSoup as bs http = urllib3.PoolManage

浏览 0提问于2018-12-10得票数 3

回答已采纳

2回答

Python抓取

、、、、

嗨，我对python和web都很陌生，下面是我从网站获取URL的脚本，但是我被夹在中间，我无法从类标记中获得URL，如果我查看了这个网站，我可以看到，但是在我的脚本中，它显示为javascript，任何帮助，请提前感谢import urllib.requesturl = "https://www.northcoastel

浏览 3提问于2017-09-20得票数 1

回答已采纳

2回答

Python抓取包含PHP的页面源代码

、

我知道如何抓取源代码HTML，但不知道PHP，有没有可能用内置的函数？

浏览 0提问于2013-02-25得票数 0

回答已采纳

3回答

Python读取http:在浏览器中看到的html页面-带有javascripts结果

、、

在javascripts运行后，我可以在浏览器中看到完全格式的http页面吗？不需要提交数据并按下按钮。我的标准任务是，在哪里可以看到运行所有脚本并得到结果的示例？通过：data = u.read() 如果我选择在浏览器中查看源代码，我会看到页面。然而，当我检查页面上的元素时，我看到代码是如何扩展的，例如：

浏览 0提问于2016-05-24得票数 0

1回答

如何修复‘ValueError(“输入必须有多个句子”)’错误

、、

我正在写一个脚本，需要一个网站的网址，并使用美丽的汤下载它。然后它使用gensim.summarization来总结文本，但是我一直得到ValueError(“输入必须有多个句子”)，即使文本有多个句子。脚本的第一部分下载文本，但我无法获得第二部分来总结文本。========================================== file.write

浏览 12提问于2019-02-07得票数 2

1回答

urllib:获取utf-8编码站点源代码

、、、

我正在尝试获取某个网站的一部分。脚本可以工作，但是它是一个带有a，é，í，ó，u等重音的网站。当我使用urllib或urllib2获取站点时，站点源代码不是以utf-8编码的，因为utf-8支持这些重音。>opener = urllib2.build_opener() opener.addheaders = [('Acce

浏览 0提问于2012-04-07得票数 2

回答已采纳

3回答

无法在BeautifulSoup中美化抓取的html

、、、

我有一个小脚本，它使用urllib2来获取站点的内容，找到所有的链接标记，在顶部和底部附加一小段超文本标记语言，然后我尝试美化它。import urllib2import re pre= '<html><head>

浏览 0提问于2010-01-08得票数 2

回答已采纳

2回答

BeautifulSoup findAll在选择类时返回空列表

、、、

findall()在指定class时返回空列表指定标记可以正常工作 import urllib2req = urllib2.Request(url, headers=hdr) htmlpage= urll

浏览 3提问于2019-04-23得票数 1

1回答

BeautifulSoup python引发errno22错误无效模式('r')

、、、、

我正在尝试用python编写一个从特定站点下载图像的图像归档程序，但我总是得到一个ioerror errno22无效模式('r')或出现在我漂亮的汤行上的文件名错误。: imageList.append(randomTag) url本身是有效的，

浏览 1提问于2013-04-02得票数 0

回答已采纳

2回答

我似乎不能将变量的值与innerHTML放在一起

、

我的js脚本：var dd = String(today.getDate()).padStart(2, '0'); 我的

浏览 9提问于2022-01-04得票数 -2

回答已采纳

2回答

无法读取所有HTML (Web抓取)

、、、、

我试图使用BeautifulSoup和requests库从一个以超文本标记语言表示的表中抓取数据，但我无法获得所有的超文本标记语言代码。from urllib.error import URLError, HTTPError url = 'httpsRequest(url,

浏览 4提问于2020-10-16得票数 0

2回答

从URL解析XML并从标签获取信息

、、、、

我尝试使用python从XML的" CRS“标记中获取信息，并收集所有的CRS标记，或者稍后我将编辑代码以检查特定的CRS。service=WMS&request=GetCapabilities 我可以获取数据，但我不知道如何从正确的标签中获取信息。这是我到目前为止的代码： import urllib.request, urllib.parse, urll

浏览 27提问于2021-01-19得票数 0

2回答

为什么这个Jython循环在一次运行后就失败了？

、、、、

它给了我我想要的输出，它是来自http请求的数据，它写在我的Versions.py文件中，上面的java代码调用了该文件。第二次之后，它抛出了这个巨大的错误( 950行长，当然，我不会折磨你们)。java.util.concurrent.RejectedExecutionException: event executor terminatedha

浏览 8提问于2015-08-27得票数 15

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用BeautifulSoup get_text或findAll(text=True)时无法获得可见文本

使用Scrapy 'regex定义‘

从给定的URL提取CSS/JSS

如何使用Python获取脚本中的JSON数据

通过python加载网站内容

如何在调用堆栈api而不是'application/ json‘时获取json数据的纯文本？

使用BeautifulSoup从html中提取文本，但脚本标记的内容除外

Python抓取

Python抓取包含PHP的页面源代码

Python读取http:在浏览器中看到的html页面-带有javascripts结果

如何修复‘ValueError(“输入必须有多个句子”)’错误

urllib:获取utf-8编码站点源代码

无法在BeautifulSoup中美化抓取的html

BeautifulSoup findAll在选择类时返回空列表

BeautifulSoup python引发errno22错误无效模式('r')

我似乎不能将变量的值与innerHTML放在一起

无法读取所有HTML (Web抓取)

从URL解析XML并从标签获取信息

为什么这个Jython循环在一次运行后就失败了？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐