我正在尝试通过网络抓取雅虎的财务数据。我已经找到了一个适用于某些数据的解决方案...但我不知道如何实现季度数据的飞跃。我想知道我是不是走错了路。这里有一个对我有效的解决方案,但我不知道如何从年度数据跃升到季度数据:R: web scraping yahoo.finance after 2019 change
我正在试图弄清楚如何从雅虎金融获取财务信息(损益表、资产负债表和现金流)。我有一个名为symbols的列表,其中包含所有的股票代码(参见下面的代码)。最终,我希望得到的csv包含4年(2018年、2017年、2016年、2015年)串联的行。“”“我可以手动完成此操作,但我希望自动执行此操作,以便返回一个包含所有相关信息(77列和4*#ticker符号行)的.csv文件。 ? 将上面的图像转换为: ? 我已经想出了如何使用刮刀从雅虎抓取数据。 from lxml import html
from lxml import html
import requests
import numpy
试图建立我的第一个网络刮刀打印股票市场是如何在雅虎的财务。我已经找到了如何隔离我想要的信息,但它返回超级草率。我怎样才能更容易地处理这些数据呢?
import requests
from bs4 import BeautifulSoup
#Import your website here
html_text = requests.get('https://finance.yahoo.com/').text
soup = BeautifulSoup(html_text, 'lxml')
#Find the part of the webpage wher
我正在使用漂亮的汤,试图从几个不同的网站刮一些财务信息,但我注意到,大部分的html信息是从我刮掉的。我已经尝试过html.parser、lxml和html5lib在解析刮取的信息时没有结果。
下面是我尝试过的两个不同站点的代码示例。在这两个示例中,我都试图检索市值信息,但我似乎从未在分析过的输出中获取过它。
#!/usr/bin/env python
def get_marketcap(security):
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
loc =
我有一个Python (3.6)脚本作为网络蜘蛛运行。它抓取页面的内容,提取链接并抓取它们。它使用lxml.html来处理链接,并使用
from lxml import html
我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。我目前正在处理Unicode、SSL、重定向、连接和ContentDecode错误。我经常碰到lxml.etree.XMLSyntaxError和lxml.etree.XMLParseError。我尝试过通过except-块传递它们,但是当它运行到NameError: name 'lxml' is not defined时总是停止,因为我只导入l
我已经写了一个脚本(拼凑在一起),目标是收集在线时间表,并根据它制作桌面提醒。实际的抓取函数没有给我一个错误或结果。它似乎起作用了,但没有起作用。是XPATH问题还是我把实际的HTML连接部分弄错了? 第一个问题是SSL错误,我不得不一直使用它,直到它停止给出问题。我解决了这个问题。现在它成功运行了,但结果只显示了空方括号。 from lxml import html
import requests
import ssl
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.pack
我正在编写一个python应用程序,它可以从我制作的web应用程序中抓取传感器数据。我想使用lxml从HTML中收集某些span元素,这些元素通过JQuery脚本定期更新。似乎lxml没有获取使用JQuery更新的文本,因为我只检索加载原始HTML的空字符串。JQuery的值是在查看网页时反映出来的,而不是在web抓取工具上。如何才能始终如一地检索使用JQuery更新的数据?
HTML
<!--Blower Speed Well -->
<div class = "col-xs-4">
我正在寻找与Python的lxml库等效的Clojure/Java。
我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品),而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友!有人能推荐一个类似的Java/Clojure库吗?
关于lxml
lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面,因此非常适合屏幕抓取任务。它还实现了xpath,因此ElementTree /html结构被表示为一个树对象,完全支持xpath和CSS选择器等。
它也有一些非常方便的实用功能,比如
我正在尝试从这个网址,上抓取数据。在该页面上,您将看到一个交互式表,该表只显示当您将光标移动到不同的方块上时的预触发器操作。我检查了源代码,所有信息都在类stat摘要中,但是stat摘要随着光标位置的变化而改变。有没有一种方法可以使用lxml和请求来推断整个表?我可以做一个单一的职位,但不是全部。
到目前为止我的代码是:
from lxml import html
import requests
page = requests.get("http://poker.srv.ualberta.ca/preflop")
tree = html.fromstring(page.cont
我正在尝试创建一个基本的刮板,它将从Soundcloud上的搜索中抓取用户名和歌曲标题。通过检查我需要的元素(使用Chrome),我发现我需要找到与title="soundTitle__usernameText“中的每个标记'span‘相关联的字符串。使用BeautifulSoup、urllib2和lxml,我有以下搜索'robert‘的代码:
from lxml import html
from bs4 import BeautifulSoup
from urllib2 import urlopen
import requests
def search_result
我一直试图使用lxml抓取HTML页面的动态字段,代码非常简单,如下所示:
from lxml import html
import requests
page = requests.get('http://www.airmilescalculator.com/distance/blr-to-cdg/')
tree = html.fromstring(page.content)
miles = tree.xpath('//input[@class="distanceinput2"]/text()')
print miles
我得到的结果只是一个空