编程-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

编程

写写文章，造造轮子，推荐几篇文章的专栏~

专栏成员

773

文章

1150893

阅读量

114

订阅数

python学习内建模块

介绍python的几个內建模块 1 python的时间模块datetime 取现在时间 📷 将指定日期转化为时间戳 📷 将时间戳转化为日期根据时间戳转化为本地时间和utc时间 📷 将字符串转化为时间将时间戳转化为字符串时间加减 📷 设置时区 📷 获取utc时区和时间，并且转化为别的时区的时间 📷 2命名tuple 📷 3顺序字典 📷 4计数器 📷 5 itertools 从一开始生成自然数 📷 在生成的可迭代序列中按规则筛选将两个字符串生成一个序列迭代器把连续的字母放在一起分组 6 context

企鹅号小编

2018-02-08

8150

我是如何用Python获取整个学校女生电话和QQ？技术撩妹

爬虫 python 数据库

前言：这个没什么技术难度，懂爬虫的人和程序员都可以用学的语言写出来只是很多安全问题的存在，的确影响着我们的生活，希望大家可以认识到一些网站的后台密码的规则与自己的安全性简单的说，就是是程序员的懒，让用户的信息暴露在互联网上还有一点：就是希望正在接触python，和快要放弃学习的同学，可以试试换种思路，来试试爬虫，这样有成就感的累积，可以慢慢提升你的自信爬虫开始前的准备： python2.7 库文件（xlwt，urllib2，BeautifulSoup4，xlrd）安装库文件的方法：最好在

企鹅号小编

2018-02-02

9860

Linux常用网络工具总结（一）

ssh bash bash 指令爬虫

本文整理了在实践过程中使用的Linux网络工具，这些工具提供的功能非常强大，我们平时使用的只是冰山一角，比如、、、等。本文不会深入研究这些命令的强大用法，因为每个命令都足以写一篇文章，本文只是简单地介绍并辅以几个简单demo实例，旨在大脑中留个印象，平时遇到问题时能够快速搜索出这些工具，利用强大的工具，提供一定的思路解决问题。 ping 使用这个命令判断网络的连通性以及网速，偶尔还顺带当做域名解析使用（查看域名的IP）： ping google.com 默认使用该命令会一直发送ICMP包直到用户手动中止，

企鹅号小编

2018-01-31

1.3K0

《6大爬虫利器，轻松搞定爬虫》

爬虫 selenium python https scrapy

工欲善其事必先利其器，Python之所以流行在于她有非常丰富的第三方包，无论是Web框架还是机器学习框架、抑或是爬虫框架，多得让人眼花缭乱，这给了开发者极大的选择性，这是其它语言没法企及的。今天小编就来推荐10个牛逼的爬虫利器，助你轻松搞定爬虫。 1、Requests Requests是一个HTTP请求库，完美体现了Python简单、优雅、易勇的编程哲学，开发者经常拿它的源代码作为参考，是不可多得的源代码学习资料。官网地址：http://docs.python-requests.org/en/master/

企鹅号小编

2018-01-30

1.1K0

Python2下载单张图片和爬取网页图片

昨天用Python2爬取了一首歌的热评和评论总数，今天用Python2来下载图片。一、需求分析 1、知道图片的url地址，将图片下载到本地。 2、知道网页地址，将图片列表中的图片全部下载到本地。二、准备工作 1、开发系统：win7 64位。 2、开发环境：python2.7。 3、开发工具：PyCharm。 4、浏览器：Chrome。三、操作步骤 A.知道图片的url地址，将图片下载到本地。 a1、打开Chrome，随意找到一个图片网站。 📷 a2、打开开发者工具（f12键或者fn+f12键），选择第

企鹅号小编

2018-01-30

1.2K0

关注专栏作者，随时接收最新技术干货

程序员的自我修养

腾讯产品运营

花落花飞去

腾讯社区运营

企鹅号小编

腾讯

利用好这些代码把SEO优化做到极致，最后一个你肯定没用

seo 爬虫搜索引擎 css html

SEO 本期主题，利用好HTML代码让网站优化更上一层楼，很多人认为网站优化和代码没有什么关系，其实不然，代码和优化也有着千丝万缕的关系。如果代码这一步不弄好也会影响后期的优化。尤其是最后一个还多网站都没做这一步一、title、keywords、description这三大标签都是必不可少的，我就不在多说了标题二、H标签网站上一个页面只能有一个H1标签，而H1标签所包含的内容一定要是这个网页的主题，比如一个文章详情页，那么这篇文章的标题就可以用H1标签；H2、H3标签可以多次使用，但也不要用的

企鹅号小编

2018-01-30

5950

小白爬虫之爬虫快跑，多进程和多线程

使用多线程时好像在目录切换的问题上存在问题，可以给线程加个锁试试 Hello 大家好！我又来了。你是不是发现下载图片速度特别慢、难以忍受啊！对于这种问题一般解决办法就是多进程了！一个进程速度慢！我就用十个进程，相当于十个人一起干。速度就会快很多啦！（为什么不说多线程？懂点Python的小伙伴都知道、GIL的存在导致Python的多线程有点坑啊！）今天就教大家来做一个多进程的爬虫（其实吧、可以用来做一个超简化版的分布式爬虫）其实吧！还有一种加速的方法叫做“异步”！不过这玩意儿我没怎么整明白就不出来误人

企鹅号小编

2018-01-30

7060

Scrapy 框架插件之 IP 免费代理池

python 爬虫 http 网站 scrapy

Photo from Unsplash 现在很多网站都是对单个 IP 地址有访问次数限制，如果你在短时间内访问过于频繁。该网站会封掉你 IP，让你在一段时间内无法正常该网站。突破反爬虫机制的一个重要举措就是代理 IP。拥有庞大稳定的 IP 代理，在爬虫工作中将起到重要的作用,但是从成本的角度来说，一般稳定的 IP 池都很贵。因此，我为 Scrapy 爬虫编写个免费 IP 代理池插件。 1 特点该插件适用的程序是基于 Scrapy 框架编写的爬虫程序。插件通过爬取免费代理地址，然后过滤掉无效 IP 代理

企鹅号小编

2018-01-26

2.7K1

python爬虫抓取网易云音乐歌词

python爬虫库的选择如果你已经了解一些python的基础，那不妨来搞点事情做，比如说做个爬虫，python的爬虫库相当的多，我建议初学者从requests库学起就好，为什么这么说，因为这个库对新手来说特别的友好，Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。安装requests库要安装 Requests，只要在你的终端中运行这个简单命令即可：pip install requests，前提是你已经安装好pip了。发送请求一开始要导入 Requests 模块

企鹅号小编

2018-01-25

1.6K0

手持 Python 利剑，一路向前

学习 Python 课程究竟有什么用？Python 课程学员假牙运用课程所学，在工作中设置自动化检验脚本，为团队排除 bug 规避风险。「最难受的时候再坚持一下，不要轻易放弃。放弃这种事儿，等到多试一次再去考虑。」从磨砺、失败到成长，假牙的学习经历值得一看，其学习感悟更值得你借鉴！ 📷 我是假牙软件测试工程师一枚，主攻大数据方向。Python 课程期间因 Scrapy 爬虫初窥其神奇，这一年来开路填坑，也幸亏手中握有 Python。数据科学基础班三期参与复训，获得全额学费退还。我将继续在开智课程的路上勇猛

企鹅号小编

2018-01-24

6350

采用DIV＋CSS布局对SEO优化有何好处？

seo 搜索引擎爬虫网站

DIV+CSS布局，页面代码精简，这一点对XHTML有所了解的都知道。代码精简所带来SEO优化直接好处有两点：一是提高spider爬行效率，能在最短的时间内爬完整个页面，这样对收录有更好的作用。 📷 SEO优化中采用DIV+CSS布局的好处有：排名的影响基于XTHML标准的DIV+CSS布局，一般在设计完成后会尽可能的完善到能通过W3C验证。截止目前没有搜索引擎表示排名规则会倾向于符合W3C标准的网站或页面，但事实证明使用XTHML架构的网站排名状况一般都不错。表格的嵌套问题，很多SEO在其文章中称，

企鹅号小编

2018-01-24

1K0

保存数据到MySql数据库——我用scrapy写爬虫（二）

写在前面上一篇（https://www.tech1024.cn/original/2951.html ）说了如何创建项目，并爬去网站内容，下面我们说一下如何保存爬去到的数据开始爬取创建Spider，上一篇我们已经创建了ImoocSpider，我们做一下修改，可以连续下一页爬取。 scrapyDemo/spiders目录下的ImoocSpider类：这里用到了scrapyDemo目录下ImoocCourseItem类，下面我就说一下。 Item数据容器在scrapyDemo目录下创建ImoocC

企鹅号小编

2018-01-23

2.5K0

Python爬虫Scrapy入门看这篇就够了

来源：罗罗攀链接： https://www.jianshu.com/p/e5ead6af4eb2 一、初窥scrapy scrapy中文文档: http://scrapy-chs.readthedocs.io/zh_CN/latest/ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Assoc

企鹅号小编

2018-01-22

9770

Python的解码和编码

使用Python语言做网络爬虫或者写自动化脚本时，总会遇到“中文乱码”的问题，很是头疼。很多“中文乱码”的问题是跟Python的解码/编码有关，所以今天和大家说说Python的解码/编码（以Python2.7为例）。 1.什么是Python解码/编码？ Python里面的解码和编码也就是unicode和str这两种形式的相互转化。解码就是str -> unicode，相反的，编码是unicode -> str。总的来说就是：unicode是Python解释器的内码，所有代码文件在导入并执行时，Python

企鹅号小编

2018-01-18

2.5K0

前端SEO—详细讲解

一、搜索引擎工作原理当我们在输入框中输入关键词，点击搜索或查询时，然后得到结果。深究其背后的故事，搜索引擎做了很多事情。在搜索引擎网站，比如百度，在其后台有一个非常庞大的数据库，里面存储了海量的关键词，而每个关键词又对应着很多网址，这些网址是百度程序从茫茫的互联网上一点一点下载收集而来的，这些程序称之为“搜索引擎蜘蛛”或“网络爬虫”。这些勤劳的“蜘蛛”每天在互联网上爬行，从一个链接到另一个链接，下载其中的内容，进行分析提炼，找到其中的关键词，如果“蜘蛛”认为关键词在数据库中没有而对用户是有用的便存入数据

企鹅号小编

2018-01-17

1K0

Python多线程怎样优雅的响应中断异常

最近需求做完没什么事干，就爬了点知乎的话题数据，用到了多个线程。遇到一个问题：当我们手动时，怎样把子线程都停掉呢？先说几个知识点： Ctrl+C 引起的任意线程都能收到。但是当系统存在模块时，中断只会发到主线程。锁的操作不会被中断，在获得锁之后才会抛出异常。主线程因异常退出后，一般情况下，剩下所有的子线程也会被系统杀掉，并且不会执行完整的操作。一般的系统都是有signal模块的，所以键盘中断异常一般只能由主线程处理。下面我们开10个线程模拟爬去数据，在主线程捕获该异常：运行后，按下，发现控制台

企鹅号小编

2018-01-15

1.7K0

说说正则表达式的使用

爬虫数据处理正则表达式

今日分享：正则表达式一：正则表达式的定义及用途正则表达式是一种特殊的字符串，字符串中的每个字符都含有特定的意义。使用者通过将正则中不同的字符组合成不同的字符串，以便用它来匹配（筛选或提取）文本中的目标文本。其用途主要就是匹配文本。就编写Python爬虫来说，当获取到目标网页中的链接文本时，要想按照我们的需要提取出数据，就可以通过比对要获取的目标数据来编写相对应的正则表达式。二：正则表达式的基本语法在这里为使大家详细了解正则的基础知识，小编从网上搜索了一个较为详细的知识图，小编就不在重复造轮子了 📷

企鹅号小编

2018-01-12

1.3K0

百度指数之图像数字识别（2）

爬虫图像识别

作者介绍：叶成，数据分析师，就职于易居中国，热爱数据分析和挖掘工作，擅长使用Python倒腾数据。在开始本位之前，这里先感谢一下本人公司的伟哥和孟哥（虽然孟哥也没帮上啥忙，但是以后有的是机会，哈哈）。上次发了篇运用selenium自动截取百度指数并识别的文章，点这里《抓取百度指数引发的图像数字识别》，其实感觉也是有些投机取巧的意思在里面，而且正如大家所知，用selenium比较吃内存，而且因为要渲染网页，爬去效率也比较低。所以这次我们直接请求图片，通过抠图、拼接、再识别的方式来完成这个百度指数爬虫项目

企鹅号小编

2018-01-12

1.7K1

爬虫基本原理完全梳理及常用解析方式

什么是爬虫：即网络爬虫，可以理解为在网络上爬行的一只蜘蛛，互联网可以比喻为一张大网，一只蜘蛛在爬行时遇到了所需的资源就可以把它爬取下来。简单来说，爬虫就是请求网络并提取数据的自动化程序。基本流程发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（例如图片视频）等类型解析内容

企鹅号小编

2018-01-11

9820

Nutch重要命令使用说明

php 爬虫数据结构网站 node.js

之前几篇博文对nucth抓取周期的几个命令做了说明，本篇博文将对nutch抓取周期以外的几个重要的命令的使用进行详细的说明。 1. mergesegs 合并多个segment为一个segment。参数：参数说明： output_dir: 输出目录 dir：合并路径命令：合并结果：从结果可以看出，是把三个segments合并为了一个segment。先来看下之前3个segment相关大小： 📷 再来看下合并的结果大小：从结果来看，大小没有变，是因为数据量比较小，如果数据量很大的话，效果也会相当的明

企鹅号小编

2018-01-11

6750

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态