前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第五篇 爬虫技术之天天基金网(1) 实战篇

第五篇 爬虫技术之天天基金网(1) 实战篇

作者头像
python编程从入门到实践
发布2019-10-22 16:42:06
1.6K0
发布2019-10-22 16:42:06
举报

hello,各位小伙伴,大家好,今天我们来看看如何使用使用前面介绍过的知识来获取一下天天基金网的少量信息,起到抛砖引玉的作用。

好了,几天我们来简单的获取一下主页站点的信息。

我们先看看天天基金网的官网的样子:

好了,我们先上代码:

代码语言:javascript
复制
# -*- encoding: utf-8 -*-
# !/usr/bin/python
"""
@File    : day_day_scrapy_day1.py
@Time    : 2019/9/8 14:54
@Author  : haishiniu
@Software: PyCharm
"""
import requests
import logging
from pyquery import PyQuery as pq

def main():
    """
    enter
    :return: 
    """
    try:
        # 主页的url
        main_url = 'http://fund.eastmoney.com/'
        # 使用get请求来获取网页上述主站的url信息
        # 添加timeout参数 主要是为了防止请求发出没有正常反馈造成阻塞,请注意,这一点很重要!重要!重要!
        # content方法是转化请求回来的数据流
        main_response = requests.get(url=main_url, timeout=60).content
        # pq 是用来把请求回来的数据流转化成pq对象,方便后续获取后续元素
        response_info = pq(main_response)
        print response_info('title').text()  # 天天基金网(1234567.com.cn) --首批独立基金销售机构-- 东方财富网旗下基金平台!
        print response_info('#setHome').text()  # 设为首页
    except Exception as ex:
        logging.exception(str(ex))
        return []


if __name__ == '__main__':
    main()

好了 我们看一下response_info = pq(main_response) 获取的html的信息,由于地方有限,我们截取一段信息来看一下:

response_info('title').text() 获取信息:天天基金网(1234567.com.cn) --首批独立基金销售机构-- 东方财富网旗下基金平台

好了,本期的分享到此结束,本篇只是抛砖引玉篇,请小伙伴们自己动手尝试一下吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python编程从入门到实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档