首页
学习
活动
专区
工具
TVP
发布

企鹅号快讯

企鹅号技术类相关资讯
专栏作者
3887
文章
4499382
阅读量
291
订阅数
数据抓取与利用行为的不正当竞争法规制
编者按: 随着大数据时代的来临,数据的利用纠纷在司法实践中初露端倪。数据虽然在新修订的《民法总则》中作为一种新的客体出现,但其客体的范围、权利归属,权利界限在立法中几乎还是空白状态。本文将通过几个案例说明数据利用行为在司法实践中的规制。 一、引言 “网易云音乐”里有一项非常令人喜闻乐见的功能——“日推”。根据你经常听的歌曲类型,每日推送20首音乐,有好久以前听过早就忘记了歌名却一直村与记忆深处的老歌,或者之前不知道在哪听过只是知道其中一部分旋律,心心念念求而不得的歌等等,常常令人惊喜甚至是惊艳。日推功能也成
企鹅号小编
2018-01-15
1.9K0
谁适合学Python?学了Python可以做什么工作?
Tips: 目前在很多行业中都在越来越多的应用Python,这也是很多行业学习Python的原因,Python主要的应用领域有哪些呢?今天我们就来详细看一下。 谁适合学Python? 我们首先来看一看谁在学Python: 第一类:入行编程新手:大学刚毕业或者其他行业转岗,想从事编程开发的工作,目前认为Python比较火,想入行; 第二类:Linux系统运维人员:Linux运维以繁杂著称,对人员系统掌握知识的能力要求非常高,那么也就需要一个编程语言能解决自动化的问题,Python开发运维工作是首选,P
企鹅号小编
2018-01-22
6.4K0
如何处理 Python 入门难以进步的现象?
如何处理 Python 入门难以进步的现象? 问题描述: 看视频看呀看呀看, 看完了,基础的都懂了 然后就想写点东西 可是无从下手呀,我以为基础不扎实,又去看视频 好了 视频看完了 想网上找点习题来做,结果简单的习题做不出来,又怀疑基础没学好呀 又看视频和网上的文章 如此的循环着 学习有一个月了 我困惑的是,很难把知识点结合起来写个简单的东西 比如说目录遍历都写不出来我知道站在岸上学不会游泳 你们可能会叫我多练 , 可是我想知道怎么去练 如何练 不能没有目的的去练, 其实我PHP也是如此的,能看懂代码就是难
企鹅号小编
2018-01-19
7280
抓取百度指数引发的图像数字识别
作者介绍: 叶成,数据分析师,就职于易居中国,热爱数据分析和挖掘工作,擅长使用Python倒腾数据。 前言 学习爬虫也有段时间了,闲着无趣,想找点项目练练手,于是乎通过顺祥老师介绍,接到了一个关于百度指数的爬虫需求。(百度指数可以反映一个词在一段时间内的搜索热度,不知道百度指数的同学们可以自行百度)。好的,话不多说,开始我们的项目。 百度指数页面 📷 输入查询的关键字 📷 嗯?跳转到了登陆界面!(赶紧拿出小本本记下,这里需要登陆)。 登陆后的展现 📷 心中窃喜,脑子里满是抓包分析,模拟请求,获取指数,gam
企鹅号小编
2018-01-23
1.3K0
回家的低价票难抢?注意!可能是被“爬虫”吃了
不到两个月,2018年春节要来了。 “今年我得早下手,抢张回家的低价机票。”在北京打工的小王对科技日报记者说,由于老家在云南,春节机票太贵,他都选择坐两天两夜的火车回去,长途跋涉,苦不堪言。 然而,就在小王摩拳擦掌,准备使出“洪荒之力”抢张便宜机票时,看到网上曝出这样一则消息:航空公司放出的低价机票,80%以上被票务公司的“爬虫”抢走,普通用户很少能买到。 小王傻眼了,“爬虫”究竟是什么鬼?它又是怎么抢机票的?难道就没有办法治理吗? 借助超链接信息抓取网页 “‘爬虫’技术是实现网页信息采集的关键技术之一,通
企鹅号小编
2018-01-23
8380
htcap:一款实用的递归型Web漏洞扫描工具
今天给大家介绍的是一款名叫 htcap 的开源 Web 漏洞扫描工具,它通过拦截 AJAX 调用和页面 DOM 结构的变化并采用递归的形式来爬取单页面应用(SPA)。htcap 并不是一款新型的漏洞扫描工具,因为它主要针对的是漏洞扫描点的爬取过程,然后使用外部工具来扫描安全漏洞。在 htcap 的帮助下,我们就可以通过手动或自动渗透测试来对现代 Web应用进行漏洞扫描了。 📷 环境要求 1.Python 2.7 2.PhantomJS v2 3.Sqlmap 4.Arachni 工具下载和运行 命令行参数
企鹅号小编
2018-02-05
1.1K0
Python3爬取1024图片
分析 列表页面 首先进入1024的导航网站,随便点击一个地址进入选择图片区或者在网站地址后面添加,这就是1024网站的图片区,这个爬虫就是主要抓取这个区域的所有图片,使用浏览器debug分析一下这个页面发现基本都是列表页,格式如下: 📷 在地址栏后面拼1、2、3等于就是访问图片区第一页、第二页、第三页的列表页。根据这些列表页就可以爬出具体的每一个图片页的地址,类似上图的地址: 在地址的前面拼接上主站地址就是具体的图片页了。所以根据以上的分析:通过循环地址栏找到不同的列表页在根据列表页找到具体的图片页 地址栏
企鹅号小编
2018-02-05
2.4K0
网页解析之Beautiful Soup库运用
今日分享:Beautiful Soup库简单应用 一句话来理解 Beautiful Soup库就是:它是解析遍历维护标签树的功能库。以下是BeautifulSoup库的文档链接: 官方链接https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 中文链接https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 下面根据一个示例来了解学习BeautifulSoup库: >>> import req
企鹅号小编
2018-02-05
1.2K0
Python循环控制之for
各位小伙伴们 大家周三愉快 今天我们要来共同探讨 另外一个在Python中 (严格的说实在所有语言中) 最重要的语句之一 For()循环控制语句 技术要点: for()的理解 for()的基本使用 for()与其他序列的配合使用 80%以上的代码中都会存在 For() 那么他是用来干什么的呢? 首先我们来看这样一个需求 如果我需要重复的做某个动作 并根据不同的结果去做不同的事情 直到某一种状态之后 做另一一些事情 或 停止 那么,这时候就需要用到for()循环了 下面我们来看一下基本的语法格式 for的用法
企鹅号小编
2018-02-05
6390
Python从零基础到精通!小白也能学会!
引言 Functional Programming(函数式编程)的概念最早起源于LISP,由约翰·麦卡锡在1958年创立,最早提出了自动垃圾回收的理念,这一理念现在也被Python/Java/Ruby等多种语言借鉴。发展到今天,LISP已经衍生出了多种方言。相比面向对象编程,函数式编程的一大优势就是Immutable Data(数据不可变),就是不依赖于外部的数据,而且也不改变外部数据的值,这种思想可以大大减少我们代码的Bug,而且函数式编程也支持我们像使用变量一样使用函数。Python作为面向对象语言,也
企鹅号小编
2018-02-06
7070
用python爬取自己的朋友圈,得到的信息超过你的想象!
微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证,拥有它就能在移动互联的世界行止由心。本文作者利用 Python 爬取了自己微信好友的信息后,像打开了一扇新世界的大门。一起来围观他的爬取过程吧。 昨晚偶然了解到 Python 里的 itchat 包,它已经完成了 wechat 的个人账号 API 接口,使爬取个人微信信息更加方便。鉴于自己很早之前就想知道诸如自己微信好友性别比例都来自哪个城市之类的问题,于是乎
企鹅号小编
2018-02-06
1.7K0
Python爬取网站的一些小技巧
1.最基本的抓站 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。 3.需要登录的情况 登录的情况比较麻烦我把问题拆分一下: 3.1 cookie的处理 是的没错,如果想同时用代理和cookie,那就加入proxy_support然后operner改为 opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler) 3.2 表单的处理 登录必要填表,表单怎么填?
企鹅号小编
2018-02-07
9040
Python开发六大优点 让你学到真正的技术
Python是一种编程语言,完成同一个任务,C语言要写1000行代码,Java只需要写100行,而Python可能只要20行。用Python完成项目,编写的代码量更少,代码简短可读性强,团队协作开发时读别人的代码速度会非常快,使工作变得更加高效。优雅做开发不再是梦!Python开发非常接近自然语言,精简了很多不必要的分号和括号,非常容易阅读理解。接下来一起看看你不得不知的Python六大优点: 一、Python的定位是“优雅”、“明确”、“简单”,所以Python程序看上去总是简单易懂,初学者学Python
企鹅号小编
2018-02-07
6610
python学习爬虫获取糗事百科段子
利用前面学到的文件、正则表达式、urllib的知识,综合运用,爬取糗事百科的段子 先用urllib库获取糗事百科热帖第一页的数据。并打开文件进行保存,正好可以熟悉一下之前学过的文件知识。 📷 打开文件可以看到如下内容: 📷 div class=”article block untagged mb15 typs_long” id=’qiushi_tag_119848276’表示一个文章的开始,id为文章对应的id,h2 之间的是发布者的姓名‘高老庄福帅猪刚鬣’,span与/span之间的是正文, i clas
企鹅号小编
2018-02-08
5510
Python3爬取B站视频弹幕文字+视频
需要准备的环境: 1、一个B站账号,需要先登录,否则不能查看历史弹幕记录 2、联网的电脑和顺手的浏览器,我用的Chrome 3、Python3环境以及request模块,安装使用命令,换源比较快: 爬取步骤: 1.登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求 其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目 4.在查看历史弹幕中任选一天,查看,会发出新的请求 dmrol
企鹅号小编
2018-02-08
1.1K0
Scrapy爬虫教程五 爬虫部署
现在使用Scrapy进行爬取数据已经轻车熟路了,那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。 操作环境: Python 3.6.3 pip 9.0.1 curl 7.57.0 一.scrapyd1.1使用scrapyd的好处? 最大的好处就是方便使用,我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。 1.2.scrapyd工作原理 当在一个服务器上安装并运行scrapyd服务的时候,scrapyd会以
企鹅号小编
2018-02-11
1.3K0
R实战——大众点评-汉拿山评论情感浅析
有实际的需求才有行动的动力,因为一个朋友开了一家烤肉店,在大众点评上线了团购套餐,遭遇了几次中差评,朋友第一次接触这个,也不知道怎么回复和处理,于是向我寻求帮助。本人也不知道如何处理,正好最近在学R语言,于是就想到了不如通过R语言编写个简单的爬虫抓取大众点评上评论,参考其他店的回复和处理方式。爬取了数据,又可以拿来练手,做个简单的情感分析。 本文主要分以下三部分: 第一部分,编写爬虫抓取数据,主要的R包有XML包,RCurl包,readr包 第二部分,清洗数据和分词,主要的R包有stringr包,Rword
企鹅号小编
2018-02-12
1.2K0
重合散点图绘制:neat
hello诸君,暖阳高照,午间一杯清茶,又到了爬虫俱乐部向大家种草新命令新方法的时候啦! 许多同学学到的第一个Stata绘图命令想必就是scatter命令,该命令用于生成观测样本的散点图,但scatter命令存在一个缺点:当我们的数据集存在重复观测值时,scatter生成的图中不能体现那些“重合的散点”。而今天我们要介绍的命令专门用于解决这一问题——neat命令,它可以微调重复观测样本的变量值。使得其在散点图上清晰可见。 01 安装 你可以使用github 命令直接安装neat命令 github insta
企鹅号小编
2018-02-23
1.7K0
ForeSpider教程连载之链接抽取
自从来到前嗅,小编从一个爬虫小白到现在能够熟练的采集各种网站各种数据真的是有很大的成长,当然,成长过程中肯定少不了踩坑(很多网站都有防爬措施),为了让各位用户能够更熟练的使用爬虫软件,小编决定定期在公众号写一些配置爬虫的经验和小技巧,以及遇到坑的时候的解决方法。 本次案例使用的是大众点评网,要抽取下面的翻页链接。 第一步先看每一页的链接地址有没有规律。 可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址
企鹅号小编
2018-02-23
6070
左手用R右手Python系列——多进程/线程数据抓取与网页请求
这一篇涉及到如何在网页请求环节使用多进程任务处理功能,因为网页请求涉及到两个重要问题:一是多进程的并发操作会面临更大的反爬风险,所以面临更严峻的反爬风险,二是抓取网页数据需要获取返回值,而且这些返回值需要汇集成一个关系表(数据框)(区别于上一篇中的二进制文件下载,文件下载仅仅执行语句块命令即可,无需收集返回值)。 R语言使用RCurl+XML,Python使用urllib+lxml。 方案1——自建显式循环: 📷 📷 整个过程耗时11.03秒。 方案2——使用向量化函数: 📷 整个过程耗时9.07m。 方案
企鹅号小编
2018-02-23
1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档