首页
学习
活动
专区
工具
TVP
发布

编程

写写文章,造造轮子,推荐几篇文章的专栏~
专栏成员
773
文章
1151048
阅读量
114
订阅数
程序员如何摆脱平庸?
也许我们都不是天才的程序员,但至少我们都可以成为一个理想的程序员。 我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔。26 岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭、害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上,一年半后离职,已是拥有 500 万用户产品的后台主程。从前我对计算机技术心怀畏惧,认定技术高人一定有佛光笼罩,昼夜不息运键如飞日吐代码上万行。 现在也算见过一些世面了,回首那段忐忑不安宛如初夜的过程,我却不发觉有任何的励志意味,而是视
企鹅号小编
2018-01-31
9010
Machine Learning最小可迭代产品No.75
报告各位首长,我参与的第二个项目顺利上线啦~ 棒棒,又一次感觉自己做的东西是有价值的,这个项目是一个平台类产品,专注于提高线下零售的实施效率,希望后面的迭代会越来越好。但是这个今天跟主题没什么毛关系,今天要跟大家聊聊最近的一点小思考,关于Machine Learning 的最小化可行产品的设计,以及平台化设计,应该是怎么样的。 我在公众号后台看到好多读者大大都留言了 “MVP” 来获取之前做的PPT了,但也很多大大希望我能好好讲讲这个PPT的内容,以及背后设计的思想是怎样的,今天终于有空跟大家细细捯饬捯饬。
企鹅号小编
2018-01-29
5370
大数据干货系列(六)-Spark总结
本文共计1611字,预计阅读时长八分钟 Spark总结 一、本质 Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程 二、mapreduce有什么问题 1.调度慢,启动map、reduce太耗时 2.计算慢,每一步都要保存中间结果落磁盘 3.API抽象简单,只有map和reduce两个原语 4.缺乏作业流描述,一项任务需要多轮mr 三、spark解决了什么问题 1.最大化利用内存cache 2.中间结果放内存,加速迭代 3.将结果集放内存,加速后续查询和处理,解决运行慢
企鹅号小编
2018-01-29
7350
Heron:来自Twitter的新一代流处理引擎应用篇
作者 | 吴惠君,吕能,符茂松 责编 | 郭芮 【导语】本文对比了Heron和常见的流处理项目,包括Storm、Flink、Spark Streaming和Kafka Streams,归纳了系统选型的要点。此外实践了Heron的一个案例,以及讨论了Heron在这一年开发的新特性。 在今年6月期的“基础篇”中,我们通过学习Heron[1][2][3]的基本概念、整体架构和核心组件等内容,对Heron的设计、运行等方面有了基本的了解。在这一期的“应用篇”中,我们将Heron与其他流行的实时流处理系统(Apach
企鹅号小编
2018-01-26
1.5K0
SQL,一门不是语言的语言?
提起编程语言,更多人想到的是java、python、C、C++,甚至是php、js,几乎无人提到SQL,甚至很多编程语言排行榜里也将SQL排除在外。 同是向计算机发出指令,得到结果,凭什么别的算语言,SQL不算? IT技术革新如此之快,曾经C如日中天,后来轮到java,现在号称是python的天下,但有人预测很快要被go所取代,每一门语言都有着其独特的使用场合,并不断被后来者超越。 然而却有一门语言从其诞生到现在,从未被替代,那就是SQL。甚至那些号称要取代它的反而被他所取代,如hadoop、如spark,
企鹅号小编
2018-01-25
1.8K0
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
Spark之搜狗日志查询实战
1、下载搜狗日志文件: 地址:http://www.sogou.com/labs/resource/chkreg.php 2、利用WinSCP等工具将文件上传至集群。 3、创建文件夹,存放数据: mkdir /home/usr/hadoopdata 4、将搜狗日志数据移到(mv命令)3中创建的目录下,并解压 5、查看解压后文件格式 file SogouQ.sample 显示: 不是UTF-8,用head/cat命名查看,中文乱码(影响后续进程),需对文件格式进行转换: iconv -f gb2312 S
企鹅号小编
2018-01-23
1.3K0
Spark踩坑记:Spark Streaming+kafka应用及调优
作者:肖力涛 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。 本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka 在舆情项目中的应用,最后将自己在Spark Streaming+kafka 的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢迎
企鹅号小编
2018-01-10
7470
提高Spark姿势水平 No.73
本文介绍了如何利用Spark进行大数据处理,包括分布式存储、计算引擎、数据倾斜处理、自定义算子、机器学习、图计算等方面的内容。通过实际案例介绍了如何在Spark中实现各种大数据应用场景。
企鹅号小编
2018-01-02
9930
一文读懂Apache Spark
本文介绍了Apache Spark的四个主要版本,包括Spark 1.x、Spark 2.x、Spark 3.x和Spark 4.x,以及每个版本所包含的特性和改进。同时,文章还介绍了Spark在大数据处理、机器学习、图计算和流处理等领域的应用情况。最后,文章展望了Spark未来的发展方向,包括结构化流处理和深度学习的支持等。
企鹅号小编
2017-12-28
1.7K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档