腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
斑斓
张逸的技术分享
专栏成员
举报
256
文章
272248
阅读量
61
订阅数
订阅专栏
申请加入专栏
全部文章(256)
设计(43)
架构(40)
系统(38)
服务(28)
其他(24)
领域驱动设计(24)
java(23)
scala(23)
微服务(23)
模型(21)
对象(19)
uml(17)
编程算法(14)
spark(13)
系统架构(13)
大数据(12)
开发(12)
数据(11)
架构设计(10)
软件架构(10)
企业(9)
数据库(8)
sql(8)
数据处理(8)
ddd(8)
存储(7)
测试(7)
软件(7)
网关(7)
接口(6)
框架(6)
python(5)
linux(5)
程序员(5)
事件(5)
ruby(4)
运维(4)
工具(4)
管理(4)
函数(4)
实践(4)
erlang(3)
react(3)
ide(3)
api(3)
人工智能(3)
分布式(3)
单元测试(3)
编程(3)
产品(3)
工作(3)
科技(3)
生命周期(3)
事务(3)
重构(3)
机器学习(2)
php(2)
android(2)
mvc(2)
git(2)
unix(2)
spring(2)
神经网络(2)
深度学习(2)
电商(2)
http(2)
容器(2)
网络安全(2)
jdk(2)
敏捷开发(2)
微信(2)
小程序(2)
数据分析(2)
https(2)
it(2)
程序(2)
登录(2)
基础(2)
架构模式(2)
开发者(2)
通信(2)
性能(2)
需求分析(2)
iphone(1)
javascript(1)
go(1)
actionscript(1)
angularjs(1)
xml(1)
ecmascript(1)
汇编语言(1)
nosql(1)
云数据库 Redis(1)
postgresql(1)
apache(1)
mapreduce(1)
访问管理(1)
命令行工具(1)
消息队列 CMQ 版(1)
cci 持续集成(1)
短信(1)
腾讯云测试服务(1)
mongodb(1)
svg(1)
redux(1)
lodash(1)
游戏(1)
自动化(1)
缓存(1)
数据迁移(1)
jvm(1)
aop(1)
markdown(1)
dubbo(1)
rpc(1)
数据结构(1)
canvas(1)
kafka(1)
性能测试(1)
flink(1)
agile(1)
dsl(1)
null(1)
twitter(1)
报表(1)
编程语言(1)
变量(1)
并发(1)
博客(1)
部署(1)
插件(1)
低代码(1)
反射(1)
分布式事务(1)
服务器(1)
公众号(1)
函数式编程(1)
行业(1)
后台(1)
继承(1)
集合(1)
计算机(1)
架构师(1)
脚本(1)
接口设计(1)
进程(1)
客户端(1)
可视化(1)
快捷键(1)
模块化(1)
内存(1)
配置(1)
企业应用(1)
前端(1)
求职(1)
日志(1)
软件开发(1)
设计模式(1)
摄像头(1)
思维导图(1)
搜索(1)
线程(1)
线程安全(1)
效率(1)
异常(1)
异常处理(1)
语法(1)
原理(1)
注解(1)
搜索文章
搜索
搜索
关闭
PySpark分析二进制文件
spark
linux
python
https
客户需求 客户希望通过spark来分析二进制文件中0和1的数量以及占比。如果要分析的是目录,则针对目录下的每个文件单独进行分析。分析后的结果保存与被分析文件同名的日志文件中,内容包括0和1字符的数量与占比。 要求:如果值换算为二进制不足八位,则需要在左侧填充0。 可以在linux下查看二进制文件的内容。命令: xxd –b –c 1 filename 命令参数-c 1是显示1列1个字符,-b是显示二进制。 遇到的坑 开发环境的问题 要在spark下使用python,需要事先使用pip安装pyspark。
张逸
2018-03-07
1.8K
0
概率学中的随机变量与分布
python
随机变量 Random Variables 如果一个变量的值存在一个与之相关联的概率分布,则称该变量为“随机变量(Random Variable)”。数学上更严谨的定义如下: 设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量。 一个最常见的随机数例子就是扔硬币,例如可以记正面为1,反面为0。更复杂的情况是扔10次硬币,记录出现正面的次数,其值可以为0到9之间的整数。 通常可以将随机变量分为离散型随机变量(Discrete Random Varia
张逸
2018-03-07
1.9K
0
掌握一点儿统计学
python
对于数据分析师而言,统计学必定是一门绕不开的学科。我今生做数据科学家已经无望了,但就工程角度来讲,致力于大数据行业,了解一些必备的统计学知识仍有必要。Data Science from Scratch的第5章讲解了统计学初级知识,对于我这样的门外汉而言,可谓恰到好处。尤喜书中还给出Python的代码示例,对于程序员而言,这是了解概念知识的利器。 统计学会描述一组数据,并通过一些常用的统计运算甄别出数据的规律,从而帮助分析师能够更好地理解数据。统计学中最常见的运算自然就是计数(count)、最大值(max)、
张逸
2018-03-07
950
0
使用Python Pandas处理亿级数据
python
数据处理
在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据: 硬件环境 CPU:3.5 GHz Intel Core i7 内存:32 GB HDDR 3 1600 MHz 硬盘:3 TB Fusion Drive 数据分析工具 Pyth
张逸
2018-03-07
6.8K
0
闲话 | 代码的体格
ruby
python
scala
java
Steve Yegge在他特立独行的作品《程序员的呐喊》中写道:“我坚信代码最大的敌人就是体格”。不过他过于自大了,以为这只是像他那样牛逼的程序员才拥有的少数派观点;又或者说他过于悲观,以为程序员的世界还在拼代码的肌肉男臆想中。殊不知只要是曾经挣扎在庞大代码库泥潭中的程序员,就不会盲目崇拜代码的大块头。 可惜,“知行合一”非圣人不可以做到,梦想的光芒常常难以照进现实的阴影。要缩小代码的体格,似乎比减肥还要艰难。软件系统像一条贪吃蛇,吃掉一切功能,最后越变越长,在局限的空间里再也无法做到从容的转折腾挪,最后活
张逸
2018-03-07
643
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档