首页
学习
活动
专区
工具
TVP
发布

HUBU生信

专栏成员
48
文章
102045
阅读量
34
订阅数
(python小白必看!)python爬虫详细讲解:静态单网页的内容爬取 爬取对象:百度贴吧湖北大学吧
之前发了一篇关于文件处理小实验的文章,不知道大家有没有看呢?那篇文章真的很关键,之前我本以为没有爬取成功的原因是因为我的文件处理部分出现的问题,后来经过两个小测试之后才发现并不是我的文件处理出现了问题,而是提取url的过程中出现了问题。
戈贝尔光和热
2018-12-27
7450
python爬虫:利用函数封装爬取多个网页,并将爬取的信息保存在excel中(涉及编码和pandas库的使用)
在之前的文章中,我们已经爬取了单网页的湖北大学贴吧的信息。 仔细想一想,单网页也才只有50条信息,如果你想找到女神在哪些时间段发了哪些帖子,这么点信息是远远不够的········(毕竟,女神并不会天天发帖,贴吧每天的发帖数量肯定远远不止50条),所以,为了老铁们的幸福生活/注:并不是为了我自己,因为我女神是我女朋友(不加这句话,怕是要跪搓衣板板)/现在有必要更深入的探讨一下怎么爬取多网页的信息。
戈贝尔光和热
2018-12-27
3.3K0
python爬虫:爬取58同城武汉地区商品房信息(最后碰到了58同城的反爬机制,吓得我不敢说话···)
今天外面天气有些古怪,女朋友明天又要考试,整整一天都在图书馆背书。遇到这种情况,像我这么懒的人,肯定就只有在宿舍玩游戏了。 可是,,,玩游戏真的很无聊耶,我都玩腻了。所以,写完线代作业,只好又来了解一下数据结构和python。这波理由很充分,哈哈哈哈
戈贝尔光和热
2018-12-27
2K0
python:处理字符串的另一大神器——正则表达式,利用正则提取豆瓣电影排行榜信息
在之前的文章中,我们已经学会了使用bs4库中的BeautifulSoup,用于获取网页源代码中的标签。 今天来一起学习一下正则表达式。
戈贝尔光和热
2018-12-27
9250
python爬虫:爬取笔趣小说网站首页所有的小说内容,并保存到本地(单线程爬取,似乎有点慢)
这几天在进行新的内容学习,并且在尝试使用据说是全宇宙唯一一款专门开发python的ide工具,叫做pycharm。
戈贝尔光和热
2018-12-27
2.1K0
python基础知识:类,对象,模块三者的区别
面向对象技术是目前流行的系统设计开发技术,它包括面向对象分析和面向对象程序设计。面向对象程序设计技术的提出,主要是为了解决传统程序设计方法--结构化程序设计所不能解决的代码重用问题。 "面向过程"(Procedure Oriented)是一种以过程为中心的编程思想。这些都是以什么正在发生为主要目标进行编程,不同于面向对象的是谁在受影响。与面向对象明显的不同就是封装、继承、类 而python就是典型面向对象的编程语言。
戈贝尔光和热
2018-12-27
1.3K0
(更新)python爬虫实战:模拟登录12306(主要讲解验证码的突破)
刚刚刷完慕课,写完线代作业,现在是时候来一波验证码的突破测试了。在开始之前,我相信有很多朋友会问我:为什么要选择突破12306的验证码? 大家应该都知道,12306每天的火车票的数量都是有限的,如果有很多人都能够通过爬虫来进行抢票,那么,让那些不懂爬虫的人应该怎么办呢? 所有12306的反爬措施肯定是很到位的,既然反爬很强,那么也就是我们应该试着突破的对象。不因为别的,只是为了提高自己的技术,仅此而已。话不多说,下面进入正题。
戈贝尔光和热
2018-12-27
3K0
爬取知乎专栏中所有关于《生物信息学》的文章,python爬虫
爬取知乎专栏中所有关于《生物信息学》的文章,python爬虫 源代码为: """ author:我爱小徐子 date:2018/11/13 23:17 """ import requests import json from urllib import parse from lxml import etree import pymysql class ZhihuSpiders(object): headers = {'user-agent': 'Mozilla/5.0 (Window
戈贝尔光和热
2018-12-27
1.1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档