首页
学习
活动
专区
工具
TVP
发布

数据小魔方

专栏作者
471
文章
1034168
阅读量
142
订阅数
XML/HTML/JSON——数据抓取过程中不得不知的几个概念
之前写了很多网络数据数据抓取的案例,无论是关于R语言还是Python的,里面大量使用xml\html\css\ajax\json等这些概念,可是一直没有对这些概念做详细的梳理,导致很多小伙伴儿看的摸不着头脑。 近期基础的网抓教程告一段落,从今天起,给大家梳理一些常用的web概念(当然是一个外行小白的视角来进行讲解,如有不当之处,还请见谅)。概念的梳理对于整体网抓思路的开拓至关重要。 几天主要围绕三个核心概念来进行介绍: xml html json xml的官方解释是可扩展标记语言,主要用于数据传输,而HTM
数据小磨坊
2018-04-11
2K0
左手用R右手Python系列之——表格数据抓取之道
在抓取数据时,很大一部分需求是抓取网页上的关系型表格。 对于表格而言,R语言和Python中都封装了表格抓取的快捷函数,R语言中XML包中的readHTMLTables函数封装了提取HTML内嵌表格的功能,rvest包的read_table()函数也可以提供快捷表格提取需求。Python中read_html同样提供直接从HTML中抽取关系表格的功能。 HTML语法中内嵌表格有两类,一类是table,这种是通常意义上所说的表格,另一类是list,这种可以理解为列表,但从浏览器渲染后的网页来看,很难区分这两种,
数据小磨坊
2018-04-11
3.2K0
左手用R右手Python系列16——XPath与网页解析库
最近写了不少关于网页数据抓取的内容,大多涉及的是网页请求方面的,无论是传统的RCurl还是新锐大杀器httr,这两个包是R语言中最为主流的网页请求库。 但是整个数据抓取的流程中,网页请求仅仅是第一步,而请求获取到网页之后,数据是嵌套在错综复杂的html/xml文件中的,因而需要我们熟练掌握一两种网页解析语法。 RCurl包是R语言中比较传统和古老的网页请求包,其功能及其庞大,它在请求网页之后通常搭配XML解析包进行内容解析与提取,而对于初学者最为友好的rvest包,其实他谈不上一个好的请求库,rvest是内
数据小磨坊
2018-04-11
2.3K0
Python网络数据抓取实战——Xpath解析豆瓣书评
前两篇我详细的讲解了CSS和XPath表达式在网页解析中的用法,但是都是以列举和解释为主,并没有用于解决实战问题,今天这一篇,我使用urllib+lxml工具组合,结合XPath表达式来做一个小案例。
数据小磨坊
2018-04-11
1.2K0
R语言数据抓取实战——RCurl+XML组合与XPath解析
经常有小伙伴儿跟我咨询,在使用R语言做网络数据抓取时,遇到空值和缺失值或者不存在的值,应该怎么办。 因为我们大多数场合从网络抓取的数据都是关系型的,需要字段和记录一一对应,但是html文档的结构千差万别,代码纷繁复杂,很难保证提取出来的数据开始就是严格的关系型,需要做大量的缺失值、不存在内容的判断。 如果原始数据是关系型的,但是你抓取来的是乱序的字段,记录无法一一对应,那么这些数据通常价值不大,今天我以一个小案例(跟昨天案例相同)来演示,如何在网页遍历、循环嵌套中设置逻辑判断,适时的给缺失值、不存在值填充预
数据小磨坊
2018-04-11
2.3K0
用R语言照葫芦画瓢撸了一个简易代理~
最近正在刻苦的学习爬虫,陆陆续续的学习了正则表达式、xpath、css表达式,基本可以胜任R语言中的RCurl+XML、httr+rvest组合爬虫的需求,对GET请求和POST请求的构造和表单提交以及浏览器抓包、模拟登陆、异步加载也做了一些梳理,因为爬虫知识的通用性,所以在入门Python阶段直接就开始练习urllib+lxml、requests+BeautifulSoup。 爬虫的入门也算有了一点儿小小的心得,下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索,这里涉及到如何使用随机age
数据小磨坊
2018-04-11
1K0
学会自定义主题,让你的仪表盘瞬间高逼格~
今天这一篇跟大家介绍如何在PowerBI和Tableau中自定义主题来更换默认主题,让你的仪表盘随心所欲的变换主题。 关于Excel的主题配色相关内容已经推送过很多篇了,这里只涉及PowerBI和Tableau的主题自定义。 可视化基础——色彩篇 office颜色配置技巧与自定义颜色主题 妈妈再也不用担心我不会配色了 一个神奇的配色网站~ 因为PowerBI和Tableau这种以快捷BI著称商务智能工具,颜色搭配上都已经提供了大量的预设色板供使用者切换使用。 但是考虑到很多企业或者公司比较注重报告或者仪表盘
数据小磨坊
2018-04-11
2.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档