首页
学习
活动
专区
工具
TVP
发布

A2Data

专栏作者
373
文章
384287
阅读量
30
订阅数
Python爬取各类文档方法归类小结,获取文档资料必备小脚本
HTML文档是互联网上的主要文档类型,但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息,也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法,以备查阅。
DataScience
2020-12-08
1.4K0
Python 处理 JSON 我选择 ujson 和 orjson
在 Python 使用用 json.dumps(data) 时突然发现特别慢,data 本身不大,但是一个包含很多元素的列表,所以促使本人寻找一个替代的 JSON 处理库。大概对比了一个 ujson(UtltraJSON), python-rapidjson(RapidJSON) 和 Python 自带的 json 库。还有一个 simplejson 是为兼容 Python 2.6 以前用的(json 是 Python 2.6 新加入的 API),性能有些差。
DataScience
2020-11-06
6.6K0
Day04| 第四期-谷歌应用商店的App分析
我们每天都在使用从手机应用商店里下载的App,有没有想过什么样的App是最受欢迎的呢?一个最直接的方法,就是前往应用商店,对App的属性进行分析,得出受欢迎的应用的特点,可以辅助新的App开发设计或是掌握当下人们使用App的流行趋势。
DataScience
2020-07-14
1.4K0
Apache Hive File
其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;
DataScience
2020-01-02
3760
Linux 第二天
Zip 格式解压 (有时候我们直接将本地的zip格式的文件 Put上去 该如何解压呢?)
DataScience
2019-12-30
3320
Linux 基本命令
· 正 · 文 · 来 · 啦 · Linux入门 / ----- 根目录 /bin 二进制可执行命令 /dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点 /lib 标准程序设计库 /sbin 超级管理命令 /mnt 系统提供这个目录是让用户临时挂载其他的文件系统 /root 系统管理员的主目录 /Lost+found 这个目录平时是空的, 系统非正常关机而留下“无家可归”的文件 /proc 虚拟的目录,是系统内存的映射 /var 某些大文件的溢出区 /usr 应用程序和文件几乎都在这个目录. boot ------ 内核文件 Linux 系统文件(100MB-200MB) 服务器500MB opt----临时文件 常用快捷键 图形界面 到 字符界面Ctrl Alt Fn (F1-----F6) init 3 字符界面 到 图形界面 Alt F7 init 5 Tab键 :自动补齐 反斜杠\ :强制换行 ctrl+u 清空至行首 ctrl+k 清空至行尾 ctrl+L 清屏 ctrl+c 取消本次命令编辑 touch 创建文件 mkdir 创建目录 mkdir -p 创建嵌套的多层目录结构 cd 切换工作目录 cd - 切换两个目录 cd .. 返回上个目录 du 统计目录及文件 du -s 只统计大小 du -a 统计所有文件 du -h 人性化显示 du -sh * 查看所有文件及大小 pwd ------- 查看当前所在位置 vim ------查看日志(编辑器) Ls ------ 打印(当前目录下所包含的内容)ls 显示目录内容(ls=ll) ./ ------直接运行脚本 查看帮助 help, -help man info (man ls)
DataScience
2019-12-30
9440
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档