首页
学习
活动
专区
工具
TVP
发布

GopherCoder

专栏成员
119
文章
119752
阅读量
44
订阅数
『No20: Golang 爬虫上手指南』
使用上面两个函数,不管是遇到的请求是Get 或者是 Post 都可以获取到网页源代码,唯一需要注意的可能是Post 请求需要正确的传递参数给请求。
谢伟
2018-08-27
8300
『Python 爬虫文集梳理』
过去的几年内,我开始了编程。 过去的一年内,我开始了工作生涯。 我学会的第一个编程技能是『爬虫』,工作后,开始接触Golang。 我开始不断的将编程结合业务, 接触越来越多的技术。每天都要学习。好久不接触的东西,又会忘记。但稍微接触下,又都可以想起来。 我开始明白,一个项目是如何提出到落地。 工作中不断的总结。空闲时间,我不断的将接触的新的知识,总结出来。发布出来。没人看, 没关系,在我总结的过程中,自己的梳理,整理,思考。 我在简书不断的写字。大多是技术类文章。每周都在思考,该输出些什么。不输出,感觉就没
谢伟
2018-06-06
5910
『requests-html 源码学习: 1』
大家好,我是谢伟,是一名程序员,熟悉 Pyhton 和 Go。学会的第一个技能是『网络爬虫』。 最近 Python 领域大神 kennethreitz 开源了一个关于网络内容解析的库,代码量很少,一
谢伟
2018-06-06
8550
『Go 语言实现简易爬虫:市值前100数字货币交易信息』
大家好,我是谢伟,一名程序员。之前接触的语言是Python, 编程领域学会的第一个技能是『爬虫』,凭借着爬虫技术先后在两个创业公司从事的是『网络爬虫』这份活。 研究生毕业后,基于各方面的考虑,选择的是现在的这份工作。主要的是从事『云计算』方面的工作,再细化点,主要从事云计算中的 PaaS 部署相关的工作。 目前正在着手的任务是开发一款命令行工具。支持 PaaS 部署相关的各种命令,且开发语言是 go。 我熟悉的是 Python ,借着之前的编程基础,顺利的转到了 go 语言。很自觉的会比较两款语言的相似和
谢伟
2018-06-06
7480
分享"一只爬虫"
自接触爬虫以来,不管你有意识还是无意识都会不断的接触到这些概念:[多线程]、[多进程]、[协程]、[异步]... 本文分享一种对异步I/O支持操作的异步库asyncio的操作方法。 asyncio 是
谢伟
2018-06-06
6360
Python 强化训练:第二篇
强化训练:第二篇 摘要:心好累. 问题来源 爬虫中会经常会遇到字符串的处理 主要内容 拆分字符串 字符串开头结尾 调整字符串格式 拼接字符串 字符串对齐 出掉不需要的字符 匹配字符 搜索字符 1. 拆分字符串 内置str.split(): 只能分割一个 re.split(): 按模式进行分割 import re data_one = "ab;cd|efg|hi,jkl|mn\topq;rst,uv\twx\t y\nz" pattern = r";+|,+|\t+|\n+|\s+|\|+" result
谢伟
2018-06-06
4120
专栏:FROM 爬虫 TO 数据科学专栏:FROM 爬虫 TO 数据科学0123
专栏:FROM 爬虫 TO 数据科学 共同成长社群,精进 专栏: 爬虫知识教程 0 关于本人: 初学者,同时喜欢编程和文艺书籍。 私下学些心理学,增强自己的认知能力。 国内小硕,算是半路出家,读研才决定走IT之路。 摸滚打爬才学习了编程技术,写专栏的初衷是自己梳理爬虫知识。 走过许多弯路,可能也还在继续走着弯路。 个人联系方式: weibo: 乌小小申 Github: wuxiaoshen Email: wuxiaoshen@shu.edu.cn 1 python学习 python教程 0
谢伟
2018-06-06
6030
专栏:016:功能强大的“图片下载器”
用理工科思维看待这个世界 系列爬虫专栏 初学者,尽力实现最小化学习系统 如何实现项目图片的下载 ---- 0:学习理念 推荐阅读 简书:学习方法论 我觉得对我有帮助,多问自己为什么从来不是什么坏毛病。 学习理念 作为初学者,独自在摸索中的过程中,往往会遇到各种各样的问题, 第一遍的学习往往就算呈现的是正确答案,往往也不能全部理解,这歌层次需要知道:是什么?; 第二遍的学习需要知道:怎么做?; 第三遍的学习需要知道:如何实现已知的?; 第四步的学习需要知道:如何实现自己的?
谢伟
2018-06-06
6140
专栏:015:重构“你要的实战篇"
用理工科思维看待这个世界 系列爬虫专栏 初学者,尽力实现最小化学习系统 **主题:重构专栏:014 + Scrapy 实战 + sqlalchemy ** 0:目标说明 Scrapy 基础教程 你要的最佳实战 刘未鹏博客 点我啊 目标:获取刘未鹏博客全站博文 文章标题:Title 文章发布时间:Time 文章全文:Content 文章的链接:Url 思路: 分析首页和翻页的组成 抓取全部的文章链接 在获取的全部链接的基础上解析需要的标题,发布时间
谢伟
2018-06-06
4980
专栏:010:SQL VS No SQL
用理工科思维看待这个世界 系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 今天的主题是:pymongo的简单实用及其实战 0:框架 序号 内容 说明 01 概念及对比说明 -- 02 对比 -- 03 实战 -- 04 参考及总结 -- ---- 1:概念 数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,
谢伟
2018-06-06
1K0
专栏:009:高评分电影都在这里
用理工科思维看待这个世界 系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 今天的主题是:实战爬取电影,并存储至MySQL数据库 ---- 1:框架 序号 目标 说明 01 抓取目标分析 -目标是什么 02 分解任务 -- 03 MySQL建表操作 本地建表 04 实战抓取 -- 05 参考及总结 -- ---- 2:目标 任务
谢伟
2018-06-06
5030
专栏:007:xpath使用及其实战
系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 今天的主题是:xpath的使用及其心理学图书抓取 1:框架 序号 内容 说明 01 概念 -- 02 xpath语法 -- 03 语法实例 -- 04 实战心理学图书抓取 -- 05 参考及总结 -- ---- 2:概念 Xpath XPath一门在 XML 文档中查找信息的语言。XP
谢伟
2018-06-06
8270
专栏:006:实战爬取博客
系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 今天的主题是:实战爬取. (涉及python文件操作,requests,BeautifulSoup,结构化数据) ---- 1:框架 序号 内容 解释 01 内容介绍 -- 02 分解如何操作 -- 03 参考及介绍 -- 2:内容介绍 目标 抓取目标网站的全部博文: 01: 博文
谢伟
2018-06-06
5260
专栏:005:Beautiful Soup 的使用
系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,
谢伟
2018-06-06
6030
专栏:004:网页下载器的使用
系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 曾经有大神告诫说:没事别瞎写文章;所以,很认真的写的是能力范围内的,看客要是看不懂,不是你的问题,问题在我,得持续输入,再输出。 差不多正式涉及所谓的网页爬虫 1:框架 序号 内容 说明 01 网络爬虫知识概况 概念是理解和精进的第一步 02 urllib 简单说明使用方法 03 request 强烈建议入手 04 代码示例 使用request爬取博客 05 参考及备注 总结与说明 ---- 2:网络爬虫 概念 网
谢伟
2018-06-06
7200
番外篇:面试总结(1)
初学者 你经历的每一件事都会成为未来的部分,具体看你如何对待了. 0:前言 作为一个初学者,对知识的理解存在着很多的疑惑。 同人交流作为学习的方式之一,牛人和兴趣的着眼点的不同,我通常倾向于自我修正的学习方式。 具体来讲: 实现最小化系统 为什么? 有没有其他的实现方式? 方法的优缺点有没有考虑? 每天的学习之前,都会回忆下昨天的新旧知识,对概念理解的是否可以用自己的话述说出来。 学习是一个新旧知识不断迭代循环的过程。新知识是能力不断提升的关键,旧知识是能力不断精进的关键。这一迭代过程逃不脱重复
谢伟
2018-06-06
5070
『项目结构与框架:Go』
gopher-1.png gopher-one.png 大家好,我叫谢伟,是一名程序员。 今天和大家谈谈项目的组织结构。在这之前的文章,我给大家推荐了一个适合爬虫的项目组织结构: workspace download download.go engine engine.go objects.go infra utils.go main main.go parse githu
谢伟
2018-06-06
8340
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档