用于Yahoo！的HTML抓取器使用lxml和请求返回错误值的财务 - 腾讯云开发者社区

python、lxml、pickle

因此，我有一些代码，它使用lxml包从yahoo finance中抓取一些关于财务数据的html，并对其执行各种操作。我创建了一个字典，其中包含我需要的所有相关信息，并且我一直在尝试使用pickle保存对象，因为每次创建它大约需要5分钟。但是，当我尝试使用以下代码行时，我在上面的标题中得到错误： file = open('file.obj', 'w') pickle.dump(headline_dictionary, file) 因为我几乎没有使用pickle的经验，所以我认为问题来自于由lxml包创建的ElementBase对象不能被pickle处理。如果是这

浏览 1提问于2014-02-25得票数 2

1回答

从雅虎财经抓取python中的数据

python、yahoo-finance

我想从雅虎财经的数据中找出一个特定的符号。我可以抓取表格格式，但不能抓取非表格格式。我将同样的原则应用于在同一页中抓取信息，但没有结果。到目前为止，我可以从https://finance.yahoo.com/quote/AAPL/profile?p=AAPL中抓取我用来抓取表的代码是： import numpy as np import pandas as pd import requests import lxml from lxml import html symbol = 'AAPL' url = 'https://finance.yahoo.com/

浏览 4提问于2019-11-19得票数 0

回答已采纳

1回答

在抓取时没有从网站上获得合适的汤对象

python-3.x、web-scraping

我试图刮雅虎财务网站使用BeautifulSoup和请求，但没有得到正确的汤。它给了我404页，没有找到html代码，而不是给我原来的网站的html代码。这是我的密码。 from bs4 import BeautifulSoup import requests soup = BeautifulSoup(requests.get('https://finance.yahoo.com/quote/FBRX/profile?p=FBRX').text, 'lxml') print(soup) 这是我的输出：你能帮我刮一下这个网站吗。

浏览 3提问于2021-09-25得票数 0

回答已采纳

2回答

雅虎财经python上的某些股票和页面出现404错误

python、web-scraping、beautifulsoup、http-status-code-404

我正在尝试从雅虎财经这个网址抓取数据。在运行下面的python代码之后，我得到了以下HTML响应 import numpy as np import pandas as pd from bs4 import BeautifulSoup import requests, lxml from lxml import html stockStatDict = {} stockSymbol = 'AAPL' URL = 'https://finance.yahoo.com/quote/'+ stockSymbol + '/key-statistics?p=&#

浏览 3提问于2021-07-06得票数 1

2回答

如何在Nokogiri中指定XPATH或CSS来抓取页面的表数据？

css、ruby、xpath、nokogiri

我正在尝试使用Nokogiri和Ruby1.9.3使用财务数据来抓取一个页面。我很难获得正确的XPath或CSS筛选器，以获取保存数据的表，然后迭代数据并组装数据，以便输出可以像这样放入CSV文件中： Date, Company,Symbol,ReportedEPS,Consensus EPS 20130828,CDN WESTERN BANK,CWB.TO,0.60,0.59 我使用Firebug来获取XPath和CSS数据。XPath或CSS提取表的正确格式是什么，然后迭代这些行来组装它们以输出到文件中？ require 'rubygems' require '

浏览 8提问于2013-11-26得票数 0

回答已采纳

1回答

使用R的雅虎季度财务数据

r、rvest

我正在尝试通过网络抓取雅虎的财务数据。我已经找到了一个适用于某些数据的解决方案...但我不知道如何实现季度数据的飞跃。我想知道我是不是走错了路。这里有一个对我有效的解决方案，但我不知道如何从年度数据跃升到季度数据：R: web scraping yahoo.finance after 2019 change

浏览 15提问于2020-08-07得票数 0

1回答

urllib.error.HTTPError: HTTP错误404:找不到(雅虎财务)

python、web-scraping、http-status-code-404、yahoo-finance

在我的计算项目中，我正在尝试建立一个财务预测网站。代码中的一个元素是web抓取API。它从雅虎财务公司的损益表中提取数据。然而，即使URL是正确的，我仍然继续得到404错误。我的代码 import pandas as pd import urllib.request as ur from bs4 import BeautifulSoup import warnings import ssl ssl._create_default_https_context = ssl._create_unverified_context income_url = 'http://uk.fina

浏览 7提问于2021-07-23得票数 2

2回答

python tree.xpath返回空列表

python、xpath、web-scraping

我很难弄清楚为什么下面代码中显示的tree.xpath方法会返回一个空列表。在这个例子中，我只是试图检索雅虎财务中的"People也Watch“横幅下的股票代码，这看起来很琐碎，但到目前为止还无法让它正常工作。我正在从inspect元素页面复制xpath。还尝试手动更改xpath，例如删除“tbody”，但两者都没有工作。任何帮助都会很感激的。谢谢 import requests from lxml import html ticker = 'TSLA' url = 'https://finance.yahoo.com/quote/'+str(ti

浏览 1提问于2020-01-16得票数 0

回答已采纳

2回答

如何通过解析包含代码列表的文本文件来刮除Yahoo Finance？

python、python-3.x、python-2.7、python-requests、finance

我有一个文本文件，里面有一个公司代码列表。我的意图是能够刮除雅虎财务，以获得财务数据的每一个这些代码。我不知道如何告诉Python遍历我文本文件中的每一行，将它分配给一个变量，然后刮掉那个特定的Yahoo Finance页面并检索它的数据并存储它，重复处理文本文件中包含多少个代码。我在网上找到了一些代码，可以从雅虎金融公司()抓取数据。然后，我尝试添加一个for循环，以便将每个滴答添加到一个符号变量中(参见代码)。 def scrape_table(url): page = requests.get(url) tree = html.fromstring(page.con

浏览 2提问于2019-05-30得票数 0

1回答

合并财务数据

python、pandas

我正在试图弄清楚如何从雅虎金融获取财务信息(损益表、资产负债表和现金流)。我有一个名为symbols的列表，其中包含所有的股票代码(参见下面的代码)。最终，我希望得到的csv包含4年(2018年、2017年、2016年、2015年)串联的行。“”“我可以手动完成此操作，但我希望自动执行此操作，以便返回一个包含所有相关信息(77列和4*#ticker符号行)的.csv文件。 ? 将上面的图像转换为： ? 我已经想出了如何使用刮刀从雅虎抓取数据。 from lxml import html from lxml import html import requests import numpy

浏览 12提问于2019-05-20得票数 1

1回答

Python 3.4:使用XPATH的href

python、xpath

使用lxml和requests，我将传递一个XPATH来检索a标记的href属性。每次我使用下面的简单代码时，我都会得到一个AttributeError，如下所示。 import requests from lxml import html import csv url = 'https://biz.yahoo.com/p/sum_conameu.html' resp = requests.get(url) tree = html.fromstring(resp.text) update_tick = [td.text_content()

浏览 4提问于2015-08-18得票数 0

回答已采纳

2回答

Google工作表中=IMPORTXML的公式分析误差

google-sheets、google-sheets-formula

我试图从雅虎财务新闻发布页面上抓取第一个标题，所以在这个例子中："Nutriband Inc.签署Diocheck(商标) Visual新冠肺炎抗体指示器补丁的独家制造协议“(网址： )。公式： =IMPORTXML("https://finance.yahoo.com/quote/NTRB/press-releases", "//*[@id="summaryPressStream-0-Stream"]/ul/li[1]/div/div/div[1]/h3/a/text()") 给出一个解析错误，我猜它来自于围绕着“概要summaryP

浏览 0提问于2021-10-12得票数 2

回答已采纳

2回答

如何使用lxml解析html --如何指定1-3位通配符以降低代码的易碎性？

python、xml、xpath、lxml、wildcard

我试图使用xml从雅虎金融中筛选出“部门”和“行业”字段。我注意到href url始终是xyz.html，，其中xyz是数字。请提出包含1位或更多数字的通配符的方法好吗？我尝试过几种基于Google和堆栈搜索的方法，但都没有效果。 import lxml.html url = 'http://finance.yahoo.com/q?s=AAPL' root = lxml.html.parse(url).getroot() for a in root.xpath('//a[@href="http://biz.yahoo.com/ic/' + 3 dig

浏览 2提问于2012-04-28得票数 2

回答已采纳

3回答

如何使用python编辑web刮过的文本数据？

python、web-scraping

试图建立我的第一个网络刮刀打印股票市场是如何在雅虎的财务。我已经找到了如何隔离我想要的信息，但它返回超级草率。我怎样才能更容易地处理这些数据呢？ import requests from bs4 import BeautifulSoup #Import your website here html_text = requests.get('https://finance.yahoo.com/').text soup = BeautifulSoup(html_text, 'lxml') #Find the part of the webpage wher

浏览 6提问于2022-02-09得票数 1

2回答

Ruby中可用的网页抓取gem/工具

ruby、html-parsing、lxml、scrape

我正在尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念。我想要抓取的一些页面示例如下： http://finance.yahoo.com/q/pr?s=SPY+Profile http://finance.yahoo.com/q/hl?s=SPY+Holdings http://www.marketwatch.com/tools/mutual-fund/list/V 你对Ruby推荐了哪些web抓取工具，为什么？请记住，有成千上万的股票基金，所以我使用的任何工具都必须相当迅速。我是Ruby的新手，但我有在Python ()中使用lxml

浏览 0提问于2013-02-23得票数 10

回答已采纳

2回答

使用Python进行数据抓取返回adblocker值。

python、web-scraping、lxml

我目前正在HTML抓取一些数据从一个网页上，我正在创建一个机器人在不和谐。我以前曾成功地使用lxml从不同的网站上刮取HTML，然而，我现在正在尝试刮的网站是检测到一个阻断剂，因此，无论我试图抓取任何数据，我都会收到相同的值；我的代码如下所示:从lxml导入html导入请求导入sys def ( arg)：page = requests.get("“+arg) tree = html.fromstring(page.content) killdeath = tree.xpath('//div[@class="stats">K/d]/text()'

浏览 0提问于2018-04-13得票数 0

回答已采纳

1回答

有没有一种方法可以根据使用Python的关键工作来抓取Google学者？

python、html、web-scraping、google-scholar

我对网络抓取是陌生的，我想知道是否有一种方式，最终的结果将是标题，摘要，年份，出版商和作者的论文，当我试图在谷歌学者刮关键字。我真的不知道从这里往哪里走。我想我需要保留一个列表，列出我想要的所有属性，但是当我在网络上抓取时，我该如何搜索它们呢？ from bs4 import BeautifulSoup import requests, lxml, os, json import pandas as pd headers = { 'User-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl

浏览 4提问于2022-02-07得票数 1

1回答

在Python scraper中使用etree时出现的问题

python、screen-scraping、lxml

我是Python的新手，希望在Scraperwiki中构建一个屏幕抓取器，但我正在与一个我无法解决的错误作斗争。本质上，我想解析一个xml文件，但是不知道如何让我的gp_indicators_scrape函数访问getroot()方法。有没有人可以修复它，更重要的是，给我一个解释，这样我以后就可以避免这个问题了？下面是抓取器：代码的关键部分： import lxml.html import urlparse from urlparse import urlparse from lxml.etree import etree def gp_indicators_scrape(org_UR

浏览 2提问于2012-07-24得票数 0

回答已采纳

2回答

漂亮汤缺失数据

python、beautifulsoup

我正在使用漂亮的汤，试图从几个不同的网站刮一些财务信息，但我注意到，大部分的html信息是从我刮掉的。我已经尝试过html.parser、lxml和html5lib在解析刮取的信息时没有结果。下面是我尝试过的两个不同站点的代码示例。在这两个示例中，我都试图检索市值信息，但我似乎从未在分析过的输出中获取过它。 #!/usr/bin/env python def get_marketcap(security): from bs4 import BeautifulSoup as bs from urllib.request import urlopen loc = &#

浏览 0提问于2018-10-21得票数 1

回答已采纳

1回答

Python抓取奇怪的数据

python、web-scraping

我正在尝试从雅虎财务页面中抓取每日更改值，例如BTC：和 of value。下面是我的代码： import requests, json from bs4 import BeautifulSoup btc_url = 'https://finance.yahoo.com/quote/BTC-USD' btc_page = requests.get(btc_url) btc_soup = BeautifulSoup(btc_page.content, 'html.parser') btc_change = btc_soup.find('div'

浏览 6提问于2022-07-20得票数 0

回答已采纳

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

2回答

为什么在Python中lxml有时会显示错误(但并不常见)？

python、web-scraping、urllib2、lxml、elementtree

我经常使用Python语言中的lxml模块从一些网站抓取数据，通常我对这个模块比较满意。然而，当我尝试抓取时，有时我会在etree.fromstring()调用中遇到lxml.etree.XMLSyntaxError: AttValue: " or ' expected错误，但通常不会。我不能澄清我看到这个错误的频率，但我认为数千次甚至数万次中就有一次，我遇到了错误。当我在错误发生后立即运行完全相同的脚本并停止脚本时，我看不到错误，脚本运行得很好。为什么它会偶尔出现错误？有没有办法解决这个问题？我在实例化urllib2.urlopen()函数时遇到了类似的问题，但由于我最近没有

浏览 0提问于2013-05-27得票数 2

1回答

如何在不导入整个模块的情况下处理lxml错误？

python、error-handling、lxml、lxml.html

我有一个Python (3.6)脚本作为网络蜘蛛运行。它抓取页面的内容，提取链接并抓取它们。它使用lxml.html来处理链接，并使用 from lxml import html 我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。我目前正在处理Unicode、SSL、重定向、连接和ContentDecode错误。我经常碰到lxml.etree.XMLSyntaxError和lxml.etree.XMLParseError。我尝试过通过except-块传递它们，但是当它运行到NameError: name 'lxml' is not defined时总是停止，因为我只导入l

浏览 7提问于2017-05-21得票数 0

1回答

使用python的Web抓取找不到网站链接

python、web-scraping、beautifulsoup、scrapy

我刚开始使用python进行网络抓取。我已经成功地学会了从一些网站抓取信息，比如和维基百科。但我遇到了一个网站，没有打开一个新的网页链接时，搜索特定的数据。我无法理解如何刮这个网站。任何帮助都是非常感谢的。网址：在搜索字段中，您可以输入“柏林，德国”(Ihr Standort)字段，查看网站地址，但不会更改。此外，我还查看了检查字段，我看不到任何链接来刮取数据。任何帮助都是非常感谢的！以下是我从其他网站提取信息所用的代码： import requests from bs4 import BeautifulSoup, NavigableString, Tag import urllib.

浏览 1提问于2021-03-02得票数 0

回答已采纳

1回答

Python:在html文件中搜索带有href和文本内容的<a>标记。

python、html、regex、python-3.x、urllib

我需要一个解决方案的帮助，以便使用Python3搜索html文件并收回页面上的所有<a>链接。然后将抓取值附加到具有相邻href (url)的字典中。这就是我已经尝试过的。 import urllib3 import re http = urllib3.PoolManager() my_url = "https://in.finance.yahoo.com/q/h?s=AAPL" a = http.request("GET",my_url) html = a.data links = re.finditer(' href="?(

浏览 3提问于2016-03-29得票数 1

回答已采纳

2回答

Python数据抓取-基本概念

python、html、screen-scraping

当你回顾过去的HTML时，我试图弄清楚数据抓取是如何工作的(即DOM抓取)。我一直在尝试编写一个简单的Python代码来自动检索看过特定广告的人数:显示“本周有3365人观看了Peter's place”的部分。一开始，我试图查看HTML代码中是否显示了它，但找不到。我做了一些研究，看到并不是所有的东西都会在代码中，因为它可以由浏览器通过JavaScript或其他我还不太懂的语言来处理。然后我检查了这个元素，并意识到我需要使用Python库'retrieve‘和'lxml.html’。所以我写了这段代码： import requests import lx

浏览 1提问于2015-05-03得票数 1

2回答

BeautifulSoup数据-reactid

python、python-3.x、beautifulsoup

试图使用数据反应标记搜索雅虎财务的一个数字，但我得到了一个SyntaxError: keyword can't be an expression。我的代码： Walmart stock source = requests.get('https://finance.yahoo.com/quote/WMT?p=WMT&.tsrc=fin-srch').text soup = BeautifulSoup(source, 'lxml') price = soup.find('span', data-reactid_='35'

浏览 0提问于2018-11-11得票数 0

回答已采纳

1回答

使用Google Chrome扩展对Python进行Web抓取

javascript、python

嗨，我是一个Python新手，我正在抓取一个网页。我正在使用Google Chrome Developer扩展来识别我想要抓取的对象的类。但是，我的代码返回一个空的结果数组，而屏幕截图清楚地显示这些字符串在HTML代码中。 import requests from bs4 import BeautifulSoup url = 'http://www.momondo.de/flightsearch/?Search=true&TripType=2&SegNo=2&SO0=BOS&SD0=LON&SDP0=07-09-2016&SO

浏览 0提问于2016-08-23得票数 0

3回答

Web抓取Python脚本不会给出错误或结果。是请求问题还是XPATH问题？

python、xpath、web-scraping、python-requests、reminders

我已经写了一个脚本(拼凑在一起)，目标是收集在线时间表，并根据它制作桌面提醒。实际的抓取函数没有给我一个错误或结果。它似乎起作用了，但没有起作用。是XPATH问题还是我把实际的HTML连接部分弄错了？第一个问题是SSL错误，我不得不一直使用它，直到它停止给出问题。我解决了这个问题。现在它成功运行了，但结果只显示了空方括号。 from lxml import html import requests import ssl from requests.packages.urllib3.exceptions import InsecureRequestWarning requests.pack

浏览 19提问于2019-05-12得票数 0

2回答

如何利用R从雅虎财务中提取财务数据

r、web-scraping、finance

我感兴趣的是分析雅虎财务的余额，收益和现金流量表的多个代码，使用R。我看到有一些R包从雅虎金融( Yahoo )获取信息，但我看到的所有例子都涉及到历史上的股价信息。我能用R从这些陈述中提取历史信息吗？例如，对于Apple (AAPL)，可检索的链接如下：本质上，我们的目标是创建三个数据帧(AAPL_cashflow、AAPL_income和AAPL_balance)，它们包含与网站相同的模式。每一行都由财务类型标识，列是日期。有没有人有过解析和抓取表的经验？我认为rvest能帮上忙，对吧？提前感谢！

浏览 0提问于2018-04-15得票数 3

1回答

如何刮取使用JQuery加载的特定HTML元素

jquery、python、html、lxml

我正在编写一个python应用程序，它可以从我制作的web应用程序中抓取传感器数据。我想使用lxml从HTML中收集某些span元素，这些元素通过JQuery脚本定期更新。似乎lxml没有获取使用JQuery更新的文本，因为我只检索加载原始HTML的空字符串。JQuery的值是在查看网页时反映出来的，而不是在web抓取工具上。如何才能始终如一地检索使用JQuery更新的数据？ HTML  <div class = "col-xs-4">

浏览 8提问于2016-07-06得票数 0

回答已采纳

1回答

Web抓取，找出路径

python、web-scraping

我正在试着从这个页面上抓取一些信息我首先尝试只抓取第一个公司名称ABM Industries Inc，但是我得到了一个空列表，并且不知道为什么。 from lxml import html import requests def symbol_scrape(date): #20151208 path = 'http://biz.yahoo.com/research/earncal/'+str(date)+'.html' page = requests.get(path) tree=html.fromstring(page.te

浏览 0提问于2015-12-08得票数 0

2回答

Clojure等同于Python的lxml库吗？

java、python、clojure、lxml

我正在寻找与Python的lxml库等效的Clojure/Java。我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品)，而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友！有人能推荐一个类似的Java/Clojure库吗？关于lxml lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面，因此非常适合屏幕抓取任务。它还实现了xpath，因此ElementTree /html结构被表示为一个树对象，完全支持xpath和CSS选择器等。它也有一些非常方便的实用功能，比如

浏览 2提问于2009-10-14得票数 10

回答已采纳

2回答

Python/ as 4-使用list作为函数的输入

python、python-3.x、beautifulsoup

我现在正在做一个网络刮刀，现在我已经有了它，所以它会抓取一个网址的列表。我需要它使用列表中的每个url，它一次做一个到汤函数中，从每个单独的页面中获取我想要的html输出。示例： my_list = ['www.google1213.com', 'www.yahoo123.com', 'www.apples123.com'] def main(): url = input('URL: ') #List goes here currentDT = datetime.datetime.now() scr

浏览 0提问于2018-03-07得票数 0

回答已采纳

3回答

Web从屏幕上光标位置变化的交互式图表中抓取数据

python、web-scraping、lxml、lxml.html

我正在尝试从这个网址，上抓取数据。在该页面上，您将看到一个交互式表，该表只显示当您将光标移动到不同的方块上时的预触发器操作。我检查了源代码，所有信息都在类stat摘要中，但是stat摘要随着光标位置的变化而改变。有没有一种方法可以使用lxml和请求来推断整个表？我可以做一个单一的职位，但不是全部。到目前为止我的代码是： from lxml import html import requests page = requests.get("http://poker.srv.ualberta.ca/preflop") tree = html.fromstring(page.cont

浏览 1提问于2016-07-17得票数 0

回答已采纳

2回答

相当于整个网页下载的Python

python、beautifulsoup

我正在尝试创建一个基本的刮板，它将从Soundcloud上的搜索中抓取用户名和歌曲标题。通过检查我需要的元素(使用Chrome)，我发现我需要找到与title="soundTitle__usernameText“中的每个标记'span‘相关联的字符串。使用BeautifulSoup、urllib2和lxml，我有以下搜索'robert‘的代码： from lxml import html from bs4 import BeautifulSoup from urllib2 import urlopen import requests def search_result

浏览 6提问于2015-12-24得票数 2

回答已采纳

2回答

如何使用lxml，XPath和Python从网页中提取链接？

python、screen-scraping、hyperlink、lxml、extraction

我得到了这个xpath查询： /html/body//tbody/tr[*]/td[*]/a[@title]/@href 它提取所有带有标题属性的链接-并在中给出href。但是，我似乎不能在lxml中使用它。 from lxml import etree parsedPage = etree.HTML(page) # Create parse tree from valid page. # Xpath query hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href") f

浏览 0提问于2010-01-18得票数 5

回答已采纳

1回答

Webscraping数据

python、html、web-scraping、beautifulsoup

目前，我正试图从雅虎财务页面中抓取股票市场的实时数据。我正在使用bs4。我目前的问题是，每当我运行我的脚本，它没有正确地更新以反映当前的股票价格。如果有任何关于如何改变的建议，我们将不胜感激。 import requests from bs4 import BeautifulSoup while True: page = requests.get("https://nz.finance.yahoo.com/quote/NZDUSD=X?p=NZDUSD=X") soup = BeautifulSoup(page.text, "html.parser

浏览 0提问于2020-04-20得票数 0

回答已采纳

3回答

用lxml抓取动态html字段

python、html、web-scraping、lxml、lxml.html

我一直试图使用lxml抓取HTML页面的动态字段，代码非常简单，如下所示： from lxml import html import requests page = requests.get('http://www.airmilescalculator.com/distance/blr-to-cdg/') tree = html.fromstring(page.content) miles = tree.xpath('//input[@class="distanceinput2"]/text()') print miles 我得到的结果只是一个空

浏览 1提问于2016-02-04得票数 3

回答已采纳

1回答

雅虎CalDAV:获取日历的错误请求

icalendar、yahoo-api、caldav

我正在为CalDAV服务器开发一个日历客户端。我的应用程序可以使用Google CalDAV。我正试着从雅虎日历上得到日历。导致不良请求错误的请求有什么问题？获取选项请求： OPTIONS https://caldav.calendar.yahoo.com/dav/aliasgarikh/Calendar/testcalendar HTTP/1.1 Authorization: Basic XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Host: caldav.calendar.yahoo.com Content-Length: 0 Connection: Keep-A

浏览 8提问于2016-06-06得票数 2

回答已采纳

2回答

使用lxml和python中的请求在具有特定类名的特定标记之间获取文本。

python、html、python-3.x、xpath

我试图在具有特定类名的标记之间获取所有文本。我相信我非常接近它的正确，所以我认为它只需要一个简单的解决办法。在网站中，这些是我试图从其中检索数据的标签。我要'SNP‘。 <span class="rtq_exch"><span class="rtq_dash">-</span>SNP </span> 从我目前的情况来看： from lxml import html import requests def main(): url_link = "http://finance.yahoo

浏览 1提问于2016-05-11得票数 0

回答已采纳

5回答

找不到表yahoo.finance.xchange的定义

yahoo、finance、yql

我有一个服务，它使用雅虎！财务表yahoo.finance.xchange。今天早上我注意到它停止工作了，因为突然雅虎！开始返回一个错误，指出： { "error": { "lang": "en-US", "description": "No definition found for Table yahoo.finance.xchange" } } 。有趣的事实:如果我尝试多次刷新查询，有时我会得到正确的响应，但这种情况很少发生(大约10%的时间)。几天前，一切都很好。这是

浏览 5提问于2017-08-24得票数 12

2回答

Scrapy:修改响应中的元素和字段

python、python-2.7、scrapy、lxml

我对Scrapy、Python和面向对象编程比较陌生，所以如果我遇到任何术语错误或不清楚的地方，我深表歉意。我正在尝试编写一个爬虫，当它从响应中抓取项目时，它还将创建响应的修改版本以保存到文件中。例如，我正在尝试修改“src”链接，使其指向本地保存的抓取文件。目前，我正在使用Scrapy的选择器抓取数据，并使用lxml修改响应。但是，我希望使用Scrapy的方法来进行修改，而不是使用lxml，因为同时使用Scrapy选择器和lxml实际上意味着在响应中查找相同的元素需要加倍的代码。我在下面添加了一些代码来说明我的观点。一切都发生在爬虫解析函数中。 def parse(self，respo

浏览 2提问于2015-07-19得票数 6

2回答

使用漂亮的汤从下拉菜单中抓取

python、html、web-scraping、beautifulsoup

我正在尝试从以下位置获取日期列表：https://ca.finance.yahoo.com/quote/AAPL/options 日期位于选项链正上方的下拉菜单中。我以前从这个网站抓取过文本，但这个文本使用的是'select‘& 'option’语法。我如何调整我的代码来收集这种类型的文本？我已经使用了下面代码的许多变体来尝试抓取文本，但我没有运气。非常感谢。 import bs4 import requests datesLink = ('https://ca.finance.yahoo.com/quote/AAPL/option

浏览 14提问于2020-04-18得票数 0

2回答

为什么来自Python Pandas的Read_HTML不能工作？

python、html、pandas、web-scraping

我想使用Python Pandas Read_HTML()函数从雅虎金融表中抓取信息，如截图所示，以红色边框显示。 ? 但是，我收到了一个HTTPError: HTTP错误404:未找到下面是我的代码输出： !pip install pandas !pip install requests !pip install bs4 !pip install requests_html !pip install pytest-astropy !pip install nest_asyncio !pip install plotly import pandas as pd from bs4

浏览 54提问于2021-07-05得票数 1

回答已采纳

1回答

pip用jupyter笔记本安装yahoo-finance

python、pip、jupyter-notebook、jupyter

我试着在终端安装雅虎财务，用pip安装雅虎财务，这样我就可以在jupyter笔记本上运行雅虎财务。虽然在我输入终端后什么都没有发生，但是ModuleNotFoundError说有一个错误:在jupyter笔记本中没有名为'yahoo_finance‘的模块。有人能给我点建议吗？谢谢!

浏览 4提问于2017-10-28得票数 1

3回答

我如何从一串数字和逗号中分辨出数百万呢？

python、string、beautifulsoup、filter

为了好玩，我用漂亮的汤在雅虎财经上做了一些网络抓取。目标是获取html文件，查找金融数据并将其放入数组中。我已经设法将输出转换成这种格式总Revenue42,965,39136,483,93920,139,65822,588,85825,067,279 我怎么把数字分成几百万呢？例如，我们知道42,965,39136,483,939实际上是42,965,391和36,483,939，但我们如何编码呢？我试过使用regex但没有成功。 with open('Nucor Yahoo HTML.html','r') as html: content = html.r

浏览 12提问于2022-10-02得票数 3

1回答

python lxml xtree未从span获取编号

python、html、web-scraping、lxml

我正在尝试学习如何使用不同的语言来做不同的事情，我正在学习使用lxml进行web抓取，目前我只是想从html的span头文件中获取一个假设的页码，但我通过pages变量尝试的每个命令总是返回0或其他不同的东西。 from lxml import html import requests url = 'https://mangadex.org' page = requests.get(url) tree = html.fromstring(page.content) mangaLinks = tree.xpath('//a[@class="ma

浏览 0提问于2020-06-22得票数 1

1回答

用Python和BeautifulSoup生成雅虎新闻和必应新闻的URL

python、web-scraping、beautifulsoup

我想从Yahoo News和“必应新闻”页面中抓取数据。我想抓取的数据是标题或/和标题下的文本(无论什么都可以刮掉)和发布日期(时间)。我已经写了一段代码，但它没有返回任何东西。这是我的url的问题，因为我得到了response 404 你能帮我一下吗？这是“Bing”的代码 from bs4 import BeautifulSoup import requests term = 'usa' url = 'http://www.bing.com/news/q?s={}'.format(term) response = requests.get(url)

浏览 1提问于2019-11-17得票数 1

回答已采纳

2回答

BeautifulSoup正在返回无

python、beautifulsoup

我试图用漂亮的汤从一个网站获取一个值，但它一直没有返回任何值。到目前为止，我的代码就是这样 def getmarketchange(): source = requests.get("https://www.coinbase.com/price").text soup = bs4.BeautifulSoup(source, "lxml") marketchange = soup.get("MarketHealth__Percent-sc-1a64a42-2.bEMszd") print(marketchange)

浏览 0提问于2020-09-20得票数 0