python学习指南

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

 本篇将学习python的另一个内建模块collections,更多内容请参考:Python学习指南
collections是Python内建的一个集合模块，提供了许多有用的集合类。
namedtuple
我们知道tuple可以表示不变集合，例如，一个点的二维左边就可以表示成：
>>>p = (1, 2)
但是，看到(1, 2),很难看出这个tuple是用来表示一个坐标的。
 定义一个class又小题大做了，这时，nametuple就派上了用场：
>>> from collections import na

Python自建collections模块

 本章将介绍Python自建模块itertools，更多内容请参考：Python参考指南
python的自建模块itertools提供了非常有用的用于操作迭代对象的函数。
 首先，我们看看itertools提供的几个无限迭代器：
>>>import itertools
>>>natuals = itertools.count(1)
>>>for n in natuals:
    print(n)

1
2
3
...
因为count()会创建一个无限的迭代器，所以上述代码会打印出自然数序列，根本停不下来，

Python的itertools模块

 本篇将开始介绍Python的网络编程，更多内容请参考:Python学习指南
自从互联网诞生以来，现在基本上所有的程序都是网络程序，很少有单机版的程序了。
计算机网络就是把各个计算机连接在一起，让网络中的计算机可以互相通信。网络编程就是如何在程序中实现两台计算机的通信。
举个例子，当你使用浏览器访问新浪网时，你的计算机就和新浪网的某台服务器通过互联网连接起来了，然后，新浪的服务器把网页内容作为数据通过互联网传输到你的电脑上了。
由于你的电脑上可能不止浏览器，还有QQ、Skype、Dropbox、网易云音乐等

Python_TCP/IP简介

 本章将介绍tcp网络编程，更多内容请参考:Python学习指南
Socket是网络编程的一个抽象概念，通常我们用一个Socket表示"打开了一个网络连接",而打开一个Socket需要知道目标计算机的IP地址和端口号，再指定协议类型即可。
客户端
大多数连接都是可靠的TCP连接。创建TCP连接时，主动发起连接的叫客户端，被动响应连接的叫服务器。
举个例子，当我们在浏览器中访问新浪时，我们自己的计算机就是客户端，浏览器会主动向新浪的服务器发送连接。如果一切顺利，新浪的服务器接受了我们的连接，一个TCP连接就建

Python网络_TCP/IP简介

 本章将介绍UDP编程，更多内容请参考:Python学习指南
TCP是建立可靠连接，并且通信双方都可以以流的形式发送数据。相对TCP连接，UDP则是面向无连接的协议。
使用UDP协议时，不需要建立连接，只需要知道对方的IP地址和端口号，就可以直接发送数据包，但是，能不能到达就不知道了。
虽然用UDP传输数据不可靠，但它的优点是和TCP比，速度快，对于不要求可靠到达的数据，就可以使用UDP协议。
我们来看看如何通过UDP协议传输数据。和TCP类似，使用UDP的通信双方也分为客户端和服务器。服务器首先需要绑定端

Python网络_UDP编程

 本篇将开始介绍Python原理，更多内容请参考：Python学习指南
 
为什么要做爬虫
著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT，何谓DT，DT即数据技术，由数据在推倒人们的衣食住行，当今时代是一个大数据时代，数据从何而来？
企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
 
数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所
政府机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克

python爬虫(一)_爬虫原理和数据抓取

前言
Elasticsearch可以支持全文检索，那么ES是以什么机制来支持的，这里索引就是一个重要的步骤，经过索引之后的文档才可以被分析存储、建立倒排索引。本篇就是以ES的数据检索操作来讨论的。
更多内容情参考：ELK教程
索引操作
ES索引可以根据指定的index和type进行增加或者更新文档，ID可以指定也可以不指定（index API为我们自动生成）
curl -XPUT 'http://localhost:9200/twitter/tweet/1' -d '{
    "user" : "kimc

Elasticsearch--数据索引

urllib2的异常错误处理
在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。
这里主要说的是URLError和HTTPError,以及对它们的错误处理。
URLError
URLError产生的原因主要有：
 
没有网络连接
服务器链接失败
找不到指定的服务器
我们可以用try except语句来补货相应的异常。下面的例子里我们访问了一个不存在的域名。
#urllib2_urlerror.py
impor

python爬虫(七)_urllib2：urlerror和httperror

 本篇将介绍urllib2的Get和Post方法，更多内容请参考:python学习指南
 
urllib2默认只支持HTTP/HTTPS的GET和POST方法
urllib.urlencode()
urllib和urllib2都是接受URL请求的相关参数，但是提供了不同的功能。两个最显著的不同如下：
 
urllib仅可以接受URL，不能创建设置了headers的Request类实例；
但是urllib提供了urlencode方法用来GET查询字符串的产生，而urllib2则没有。(这是urllib和url

python爬虫(五)_urllib2:Get请求和Post请求

 本篇我们将开始学习如何进行网页抓取，更多内容请参考:python学习指南
 
urllib2库的基本使用
所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。
 urllib2是Python2.x自带的模块(不需要下载，导入即可使用)
 urllib2官网文档：https://docs.python.org/2/library/urllib2.html
 urllib2源码
 
urllib2在python3.x

python爬虫(四)_urllib2库的基本使用

 本篇将介绍python正则表达式，更多内容请参考：【python正则表达式】
 
什么是正则表达式
正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。
 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一些过滤逻辑。
 给定一个正则表达式和另一个字符串，我们可以达到如下的目的：
给定的字符串是否符合正则表达式的过滤逻辑(“匹配”)
通过正则表达式，从文本字符串中获取到我们

Python爬虫(十)_正则表达式

 爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考：Python学习指南
 
页面解析与数据提取
实际上爬虫一共就四个主要步骤：
定（要知道你准备在哪个范围或者网站去搜索）
 
爬（将所有的网站的内容全部爬下来）
 
取（分析数据，去掉对我们没用处的数据）
 
存（按照我们想要的方式存储和使用）
表（可以根据数据的类型通过一些图标展示）
以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。
数据，可分为非结构化数据和结构化数据
非结构化数据：先有数据，再有结构
结

Python爬虫(九)_非结构化数据与结构化数据

 Python学习指南
 
有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？
 有！那就是XPath,我们可以用先将HTML文档转换成XML文档，然后用XPath查找HTML节点或元素。
什么是XML
XML指可扩展标记语言(Extensible Markup Language)
 
XML是一种标记语言，很类似HTML
 
XML的设计宗旨是传输数据，而非显示数据。
 
XML的标签需要我们自行定义。
 
XML被设计为具有自我描述性。
 
XML是W3C的推荐标准。
W3School官

Python爬虫(十二)_XPath与lxml类库

 本章将结合先前所学的爬虫和正则表达式知识，做一个简单的爬虫案例，更多内容请参考:Python学习指南
 
现在拥有了正则表达式这把神兵利器，我们就可以进行对爬取到的全部网页源代码进行筛选了。
下面我们一起尝试一下爬取内涵段子网站：
 http://www.neihan8.com/article/list_5_1.html
打开之后，不难看出里面一个一个非常有内涵的段子，当你进行翻页的时候，注意url地址的变化：
第一页url: http: //www.neihan8.com/article/list_5_

Python爬虫(十一)_案例：使用正则表达式的爬虫

Requests：让HTTP服务人类
虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不太好，而Requests自称"HTTP for Humans"，说明使用更简单方便。
 Requests唯一的一个非转基因的Python HTTP库，人类可以安全享用
 
Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的URL和P

Python爬虫(八)_Requests的使用

 本篇将介绍使用，更多内容请参考：Python学习指南
 
数据提取之JSON与JsonPATH
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式，它是的人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。
JSON和XML的比较可谓不相上下。
Python2.7中自带了JSON模块，直接import json就可以使用了。
 官方博客：http://docs.python.org/library/

Python爬虫(十六)_JSON模块与JsonPath

本章将从Python案例讲起：所使用bs4做一个简单的爬虫案例，更多内容请参考:Python学习指南
 
案例：使用BeautifulSoup的爬虫
我们已腾讯社招页面来做演示：http://hr.t

Python爬虫(十五)_案例：使用bs4的爬虫

CSS选择器：BeautifulSoup4
和lxml一样，Beautiful Soup也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。
 lxml只会局部遍历，而Beautiful Soup是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
 BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。
 Bea

Python爬虫(十四)_BeautifulSoup4 解析器

 本篇是使用XPath的案例，更多内容请参考:Python学习指南
 
案例：使用XPath的爬虫
现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载到本地。
#-*- coding:utf-8 -*-
#tieba_xpath.py

"""
    作用：本案例使用XPath做一个简单的爬虫，我们尝试爬去某个贴吧的所有帖子
"""

import os
import urllib2
import urllib
from lxml import et

Python爬虫(十三)_案例：使用XPath的爬虫

 本章将介绍使用Selenium和PhantomJS两种工具用来加载动态数据，更多内容请参考：Python学习指南
 
Selenium
Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动化操作，不同是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。
Selenium可以根据我们的指令，让浏览器自动加载页面，获取需要的页面，甚至页面截屏，或

Python爬虫(二十一)_Selenium与PhantomJS

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了python学习指南专栏，为你提供了python学习指南的相关文章，致力于帮助开发者快速成长与发展。

python学习指南

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐