文章/答案/技术大牛

发布

问Python中的硒刮擦
EN

Stack Overflow用户

提问于 2014-03-10 21:46:52

回答 1查看 237关注 0票数 0

很抱歉回答了这个基本问题，但我仍在努力学习。我正试图找到一种聪明的方法，使用Selenium2和<tr> (页面上的多个<tr>)来使用以下HTML抓取一些股票数据：

<A NAME="line209"></A><tr align="right" class="odd" nowrap>
<A NAME="line210"></A><td>& </td>
<A NAME="line211"></A><td  align="left"><strong>
<A NAME="line212"></A>BAC US N</strong></td>
<A NAME="line213"></A><td>+</td>
<A NAME="line214"></A><td>17.45</td>
<A NAME="line215"></A><td>17.49</td>
<A NAME="line216"></A><td><strong>17.47</strong></td>
<A NAME="line217"></A><td><strong><font class="fontgreen">
<A NAME="line218"></A>0.14 (0.81%)</font></strong></td>
<A NAME="line219"></A><td>81,974,096</td>
<A NAME="line220"></A><td align="middle"></td>
<A NAME="line221"></A><td>& </td>
<A NAME="line222"></A></tr>

在上面的代码中，我需要提取：

BAC US N
+
17.45
17.49
17.47
0.14 (0.81%)
81,974,096

好的，下面的代码做我想要做的事情。然而，本着学习的精神，我想使它更有效率。希望你能帮上忙：

def getData():
    tickerData=[]
    tickerCounter=0
    ignoreText=['Symbol','T','Bid','Ask','Last',' ','','Change','Volume','FSI','Buy   Sell  ']  
    if quoteType=="Summary":
        numDataPoints=9
    elif quoteType=="Detail":
        numDataPoints=21

    for tr in driver.find_elements_by_xpath("//table[contains(@class, 'tableStyle2')]"):
        tds=tr.find_elements_by_tag_name('td')
        for td in tds:
            if td.text not in ignoreText:
                if len(tickerData) == numDataPoints:
                    insertData(tickerData,tickerCounter)
                    tickerData=[]
                    tickerCounter += 1
                tickerData.append(td.text)                      
    insertData(tickerData,tickerCounter)

提前谢谢！！

python

selenium

screen-scraping

回答 1

Stack Overflow用户

发布于 2014-03-13 19:10:34

将该字符串加载到名为html的变量中。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
tags = soup.findAll('td')
for tag in tags:
    print tag.getText()

BeautifulSoup是解析数据的多种方法之一。如果通过查找字符串来理解基本Python，也可以使用纯Python函数“

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22317417

复制

Scrapy中Xpath的使用

html scrapy href xpath 对象

请注意，本文编写于 990 天前，最后修改于 990 天前，其中某些信息可能已经过时。

曼亚灿

2023/05/17

9300

Scrapy框架中的xpath选择

xslt & xpath 正则表达式 scrapy

不同于我们普通爬虫获取xpath,scrapy获得xpath对象获取他的值语法一.xpath对象获取值 xpath对象..extract() 二.Scrapy框架独有的xpath取值方式利用hre

小小咸鱼YwY

2020/06/19

9910

scrapy选择器xpath

其他

Scrapy提取数据有自己的一套机制，它们被称作选择器(seletors),通过特定的Xpath或者css表达式来"选择"html文件中的某个部分。

py3study

2018/08/02

6040

Scrapy实战5：Xpath实战训练

xslt & xpath python 命令行工具 ide

今天给大家分享的是，如何在cmd和pycharm中启动自己的spider以及Xpath的基本介绍，并利用Xpath抓取伯乐在线单篇文章基本信息。

龙哥

2020/02/12

7650

【python爬虫】scrapy框架笔记（一）：创建工程，使用scrapy shell，xpath

scrapy xslt & xpath shell 爬虫 http

scrapy是个好东西，它的官方文档写的很详细，很适合入门。链接：http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html

蛮三刀酱

2019/03/26

6280

【python爬虫】scrapy框架笔记（一）：创建工程，使用scrapy shell，xpath

Scrapy框架| 选择器-Xpath和CSS的那些事

正则表达式 xslt & xpath css xml html

这次接着上一篇文章来讲Scrapy框架，这次讲的是Scrapy框架里面提供的两种数据提取机制Xpath和CSS，其实除了这两种，我们还可以借助第三方库来实现数据的提取，例如：BeautifulSoup（这个在我的爬虫系列文章中有写过）和lxml（Xml解析库），Scrapy选择器是基于lxml库之上的，所以很多地方都是和lxml相似的。

Python进击者

2019/06/21

1.3K0

scrapy框架精讲！如何在最短的时间内学会xpath语法

scrapy xml

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

云飞

2018/09/13

6790

python网络爬虫（14）使用Scrapy搭建爬虫框架

scrapy 爬虫命令行工具 python 文件存储

爬虫框架也许能简化工作量，提高效率等。scrapy是一款方便好用，拓展方便的框架。

嘘、小点声

2019/07/31

6410

xpath路径的写法

html 编程算法 xslt & xpath

3.查找页面上第一个form元素内的直接子input元素(即只包括form元素的下一级input元素，使用绝对路径表示，单/号)：//form[1]/input

小小咸鱼YwY

2019/07/24

1.9K0

scrapy爬取1024种子

爬虫 scrapy

1024不必多说,老司机都懂,本文介绍scrapy爬取1024种子,代码不到50行!Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。关于scrapy用下图来说明即可(图片来自https://cuiqingcai.com/3472.html )

LiosWong

2019/03/14

3K0

(原创)七夜在线音乐台开发第三弹爬虫篇

爬虫 dns 存储

上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫，为什么要讲爬虫，因为音乐台的数据源需要通过爬虫来获取，不可能手动来下载。下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下

七夜安全博客

2018/06/26

1.1K0

Python——Scrapy初学

python 爬虫 scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy最初是为了页面抓取（更确切来说, 网络抓取）所设计的，也

闪电gogogo

2018/01/08

1.9K0

Scrapy 爬虫实例（一）

scrapy

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

HLee

2021/06/10

6010

Python 爬虫之Scrapy《中》

xslt & xpath scrapy shell http windows

Scrapy数据解析主要有两个大类：xpath() 和 css() ，今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法，即Selector（选择器），Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，它的常用写法如下：

Wu_Candy

2022/07/04

8640

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

scrapy xslt & xpath python 爬虫 php

Python爬虫框架Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

二爷

2020/07/22

2.4K0

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

XML 的 XPath 语法

其他

2018-06-24 11:43

walterlv

2018/09/18

1.1K0

chrome xpath的使用

爬虫人工智能

最近研究爬虫的时候，发现chrome也支持xpath,用法如下，在console中输入

用户2936342

2018/08/27

1.1K0

Python网络爬虫（六）- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫

python 爬虫 scrapy

Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求，经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得Requests请求，然后根据Requests请求，从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items，交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外，还有两个中间件，Downloaders Mddlewares和Spider Middlewares，这两个中间件为用户提供方面，通过插入自定义代码扩展Scrapy的功能，例如去重等。

Python攻城狮

2018/08/23

1.7K0

Python网络爬虫（六）- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

python 爬虫 scrapy

XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法

Python攻城狮

2018/08/23

1.4K0

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

Python爬虫项目--爬取链家热门城市

python scrapy 爬虫命令行工具 tcp/ip

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)

py3study

2020/01/20

7640

相似问题

信号处理:常规音频“节拍”检测

116

时钟节拍和时钟周期的概念

418

Java中的MIDI节拍时钟

在节拍数据的价格图上绘制交易进入信号

在Javascript中模拟MIDI节拍时钟

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问Python中的硒刮擦
EN

回答 1

Stack Overflow用户

信号处理:常规音频“节拍”检测

时钟节拍和时钟周期的概念

Java中的MIDI节拍时钟

在节拍数据的价格图上绘制交易进入信号

在Javascript中模拟MIDI节拍时钟

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中的硒刮擦EN

回答 1

Stack Overflow用户

信号处理:常规音频“节拍”检测

时钟节拍和时钟周期的概念

Java中的MIDI节拍时钟

在节拍数据的价格图上绘制交易进入信号

在Javascript中模拟MIDI节拍时钟

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中的硒刮擦
EN