使用BeautifulSoup对构建不一致的表进行site抓取[gurufocus站点]

、、、、

我试图从gurufocus站点获取三个指标，但遇到了一个我不确定如何正确解决的问题-问题是我正在抓取的表关于它们有多少行是不一致的。我从我的列表中的每个滚动条的摘要页面获得Piotroski F-Score，Altman Z-Score和Beneish M-Score - AAPL ticker的示例站点是here 但是，当我迭代我的报价器列表时

浏览 29提问于2020-01-26得票数 1

回答已采纳

2回答

从不同选项卡获取结果时出错

、

我必须访问一些站点内容，但是在使用漂亮的汤进行抓取时，我发现这个错误没有类型。#parsing the urlfrom BeautifulSoup import BeautifulSoup hdr = {'User-Agent': 'M

浏览 5提问于2014-05-30得票数 0

回答已采纳

1回答

使用Selenium在一个烧瓶应用程序中进行网络抓取？

、、、、

我希望创建一个使用Selenium和BS4来抓取网站的烧杯后端。API将使用可以为<link>提供输入的任意前端进行调用。soup用户在输入框中输入一个链接，然后单击淡蓝色的提交按钮，然后在Selenium浏览器中调用API打开站点。从那时

浏览 5提问于2022-01-04得票数 0

0回答

Python BeautifulSoup找不到表ID

、、

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码from bs4 import BeautifulSoup page = urlopen(site

浏览 4提问于2017-06-08得票数 1

回答已采纳

1回答

抓取域名列表的登录页面

、、

我有一个相当长的网站列表，我想下载登陆(index.html或同等)的页面。我目前正在使用Scrapy (非常感谢它背后的人--这是一个令人难以置信的框架)。在这个特定的任务上，Scrapy比我希望的要慢，我想知道，考虑到任务是多么简单，wget或其他替代方案是否会更快。有什么想法吗？start_urls=google.com yahoo.com aol.com 我从每个响应中<em

浏览 0提问于2010-03-24得票数 2

回答已采纳

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。如果我试图找一个在树上更高的div，那么它会剪辑更深的孩子。有人能给我一些指导吗？我对使用BeautifulSoup进行网络<em

浏览 1提问于2019-04-03得票数 0

回答已采纳

1回答

如果BeautifulSoup无法到达一个站点，如何跳到下一个链接？

、、

我目前正在编写一个Python项目，它需要执行以下操作：-the脚本从这些站点抓取信息，并将输出写入.txt文件中。我遇到的问题是，如果一个站点无法到达(例如，一个随机链接: oflexertzue.com)，那么整个脚本就会停止，我必须重新启动它。如果无法到达某个站点，我将收到以下错误消息： Failed to establish a new connection: [Errno 11001] getaddrinfo faile

浏览 3提问于2022-07-18得票数 0

回答已采纳

6回答

木星笔记本和BeautifulSoup4安装

、、、、

我安装了BeautifulSoup，既使用pip install beautifulsoup4pip安装，也使用conda install -c anaconda beautifulsoup4安装，并且尝试直接从木星笔记本安装它from pip import main main(['install', package]) install('BeautifulSoup4ModuleNotFo

浏览 0提问于2019-02-20得票数 1

1回答

如何去掉BeautifulSoup中的空格或让字符串左对齐？str.strip()或str.ljust()不起作用

、

如何从使用BeautifulSoup抓取的数据中剥离或左对齐空白？数据从unicode转换为str。尝试使用str.strip()和str.ljust()，str.replace("\n"，“”)对每个字符进行.checking，如果不是None，则显示也不起作用 from bs4 importBeautifulSoup with open('f.html')

浏览 22提问于2019-04-09得票数 1

回答已采纳

4回答

为什么要将Jekyll站点的_ site* -目录放在.gitignore中？*

、、

Jekyll的文档告诉我，Jekyll站点的_ site -directory包含我在运行后创建的站点的编译版本有几篇文章建议我在.gitignore-file中包含_site-directory，因为“它只包含我的站点的编译版本”。(这是一些文章推荐的。所以，我不确定我是不是理解了Jekyll的一些概念或者Git的一

浏览 2提问于2015-08-07得票数 31

2回答

无法使用Python刮取幻想表

、、、

我正试图从以下站点中抓取梦幻玩家的数据：。该表在打开网站时出现，但当我刮掉该站点时，它是不可见的。然后，我查看了开发人员工具，看看是否可以从获取表数据的地方找到URL，但我没有运气。可能是因为我不知道如何很好地阅读开发工具。然后，我尝试刷新页面，如上面的消息所示，使用Selenium：import time chromeDriverPath = '/

浏览 0提问于2019-12-16得票数 0

回答已采纳

2回答

Sitemap -从哪里开始？

、、

我需要为我的网站创建一个sitemap提交给搜索引擎，如谷歌。该网站是动态的，所以每次用户添加新内容时，都会生成网站地图链接。该网站是基于php的。我不知道该从何说起。外面有什么帮助或资源吗？

浏览 0提问于2011-12-29得票数 1

回答已采纳

4回答

检索广告URL

我正在寻找一种方法来检索这个网站的广告网址。有什么建议吗？

浏览 2提问于2012-11-05得票数 0

1回答

Cheerio选择器没有选择某些元素

、、、、

我试图建立一个模块，做一些基本的刮在一个官方的NBA框得分页面(例如)使用请求-承诺和问候。element);}; test("0021800083"); 当我检查测试网页时，有多个带有td标记的class="player"实例，但由于某些原因，使用cheerio选择它们不起作用。我会很感激你的帮助！

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

在没有Chrome GUI的情况下抓取JS渲染的站点？

、、、、

我正在尝试使用selenium和BeautifulSoup来抓取一个js渲染的站点。代码运行良好，但我需要在没有任何chrome的服务器上运行它。我应该在没有GUI的情况下对它工作的代码进行哪些更改？下面是当前的代码： from bs4 import BeautifulSoupimport json f

浏览 20提问于2019-05-14得票数 1

回答已采纳

1回答

BeautifulSoup找不到所有div标签

、、

我已经开始了一个私人项目:在Visual Studio Code (1.41.0)中使用Python和BeautifulSoup进行网络抓取。我能够抓取另一个与我的“问题站点”具有相同结构的站点。但是现在我遇到了，BeautifulSoup不能找到所有的div标签(每个站点应该有20个，但我只找到了3个)。我在Stack Overflow上告诉自己，但没有找到解决方案(或者显然不理解它)。网址：h

浏览 36提问于2020-04-03得票数 1

回答已采纳

1回答

抽象逻辑问题，刮擦，然后将数据传递到一个项目中的另一个站点。

、

新来的刮痕。<72小时。有点困惑。我有两个网站我想刮。Site1，Site2.已经成功地抓取了站点1，并提取了我希望使用这些数据的数据，并且只有在site2被刮过之后才开始刮site1。简单的例子是从cars.for.sale ( SITE1 )获得所有的汽车模型-年价格，使用这些数据来比较ebay.com (SITE2)上使用S

浏览 0提问于2019-02-01得票数 0

1回答

如何动态抓取页面数据？

、、

我已经尝试了几天从一个网站获取一些数据，该网站使用asmx post请求来检索我想要的数据。我已经尝试过php curl，python，现在还有html解析器，但仍然没有成功。:["38"],"eventIds":[],"dateFilter":"All","marketsId":-1,"skinId":"betrebels"} 经过多次尝试，我发现这个链接提供了我想要获取的数据我有超过50个文件，尝试

浏览 11提问于2017-07-18得票数 1

1回答

使用Python刮取数据点

、、

我希望使用url 中的Python来抓取数据点。<tr>我是相当的诺比，所以如果在你的解释中，你可以提供你的思考过程，为什么你做了某些事情，这将是非常感谢的。这是我到目前为止所拥有

浏览 1提问于2014-01-19得票数 2

回答已采纳

1回答

为什么使用Amazon网关在使用requests.get(URL)时给出了错误的HTML页面

、、、

我目前正在构建一个网络刮刀，并遇到了IP被封锁的问题。为了解决这个问题，我尝试使用，它使用AWS的大型IP池作为代理，生成用于web抓取的伪无限IP。Deleting gateways for site 'https://secure.runescape.com'..get( url )方法，我使用相同的url，但是接收不同的页面。Request.get(ur

浏览 13提问于2022-03-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从不同选项卡获取结果时出错

使用Selenium在一个烧瓶应用程序中进行网络抓取？

Python BeautifulSoup找不到表ID

抓取域名列表的登录页面

使用BeautifulSoup找不到深度嵌套标记ID

如果BeautifulSoup无法到达一个站点，如何跳到下一个链接？

木星笔记本和BeautifulSoup4安装

如何去掉BeautifulSoup中的空格或让字符串左对齐？str.strip()或str.ljust()不起作用

为什么要将Jekyll站点的_ site* -目录放在.gitignore中？*

无法使用Python刮取幻想表

Sitemap -从哪里开始？

检索广告URL

Cheerio选择器没有选择某些元素

在没有Chrome GUI的情况下抓取JS渲染的站点？

BeautifulSoup找不到所有div标签

抽象逻辑问题，刮擦，然后将数据传递到一个项目中的另一个站点。

如何动态抓取页面数据？

使用Python刮取数据点

为什么使用Amazon网关在使用requests.get(URL)时给出了错误的HTML页面

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐