编程-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

编程

写写文章，造造轮子，推荐几篇文章的专栏~

专栏成员

773

文章

1151689

阅读量

114

订阅数

程序员如何摆脱平庸？

hadoop spark 数据挖掘

也许我们都不是天才的程序员，但至少我们都可以成为一个理想的程序员。我算是靠坑蒙拐骗进了程序员的门，然后一路狂奔。26 岁之前几乎没有任何写代码的经验，研究生毕业却意外选择了一家不可能提供培训的初创公司，在每日担忧公司倒闭、害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上，一年半后离职，已是拥有 500 万用户产品的后台主程。从前我对计算机技术心怀畏惧，认定技术高人一定有佛光笼罩，昼夜不息运键如飞日吐代码上万行。现在也算见过一些世面了，回首那段忐忑不安宛如初夜的过程，我却不发觉有任何的励志意味，而是视

企鹅号小编

2018-01-31

9030

Machine Learning最小可迭代产品No.75

机器学习神经网络深度学习人工智能 spark

报告各位首长，我参与的第二个项目顺利上线啦~ 棒棒，又一次感觉自己做的东西是有价值的，这个项目是一个平台类产品，专注于提高线下零售的实施效率，希望后面的迭代会越来越好。但是这个今天跟主题没什么毛关系，今天要跟大家聊聊最近的一点小思考，关于Machine Learning 的最小化可行产品的设计，以及平台化设计，应该是怎么样的。我在公众号后台看到好多读者大大都留言了 “MVP” 来获取之前做的PPT了，但也很多大大希望我能好好讲讲这个PPT的内容，以及背后设计的思想是怎样的，今天终于有空跟大家细细捯饬捯饬。

企鹅号小编

2018-01-29

5380

大数据干货系列（六）-Spark总结

spark mapreduce

本文共计1611字，预计阅读时长八分钟 Spark总结一、本质 Spark是一个分布式的计算框架，是下一代的MapReduce，扩展了MR的数据处理流程二、mapreduce有什么问题 1.调度慢，启动map、reduce太耗时 2.计算慢，每一步都要保存中间结果落磁盘 3.API抽象简单，只有map和reduce两个原语 4.缺乏作业流描述，一项任务需要多轮mr 三、spark解决了什么问题 1.最大化利用内存cache 2.中间结果放内存，加速迭代 3.将结果集放内存，加速后续查询和处理，解决运行慢

企鹅号小编

2018-01-29

7350

Heron：来自Twitter的新一代流处理引擎应用篇

api kafka spark flink

作者 | 吴惠君，吕能，符茂松责编 | 郭芮【导语】本文对比了Heron和常见的流处理项目，包括Storm、Flink、Spark Streaming和Kafka Streams，归纳了系统选型的要点。此外实践了Heron的一个案例，以及讨论了Heron在这一年开发的新特性。在今年6月期的“基础篇”中，我们通过学习Heron[1][2][3]的基本概念、整体架构和核心组件等内容，对Heron的设计、运行等方面有了基本的了解。在这一期的“应用篇”中，我们将Heron与其他流行的实时流处理系统（Apach

企鹅号小编

2018-01-26

1.5K0

SQL，一门不是语言的语言？

sql spark hadoop 大数据 python

提起编程语言，更多人想到的是java、python、C、C++，甚至是php、js，几乎无人提到SQL，甚至很多编程语言排行榜里也将SQL排除在外。同是向计算机发出指令，得到结果，凭什么别的算语言，SQL不算？ IT技术革新如此之快，曾经C如日中天，后来轮到java，现在号称是python的天下，但有人预测很快要被go所取代，每一门语言都有着其独特的使用场合，并不断被后来者超越。然而却有一门语言从其诞生到现在，从未被替代，那就是SQL。甚至那些号称要取代它的反而被他所取代，如hadoop、如spark，

企鹅号小编

2018-01-25

1.8K0

关注专栏作者，随时接收最新技术干货

程序员的自我修养

腾讯产品运营

花落花飞去

腾讯社区运营

企鹅号小编

腾讯

Spark之搜狗日志查询实战

1、下载搜狗日志文件：地址：http://www.sogou.com/labs/resource/chkreg.php 2、利用WinSCP等工具将文件上传至集群。 3、创建文件夹，存放数据： mkdir /home/usr/hadoopdata 4、将搜狗日志数据移到（mv命令）3中创建的目录下，并解压 5、查看解压后文件格式 file SogouQ.sample 显示：不是UTF-8，用head/cat命名查看，中文乱码（影响后续进程），需对文件格式进行转换： iconv -f gb2312 S

企鹅号小编

2018-01-23

1.3K0

Spark踩坑记：Spark Streaming＋kafka应用及调优

作者：肖力涛前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka 在舆情项目中的应用，最后将自己在Spark Streaming+kafka 的实际优化中的一些经验进行归纳总结。（如有任何纰漏欢迎

企鹅号小编

2018-01-10

7470

提高Spark姿势水平 No.73

spark 数据处理数据库 hadoop

本文介绍了如何利用Spark进行大数据处理，包括分布式存储、计算引擎、数据倾斜处理、自定义算子、机器学习、图计算等方面的内容。通过实际案例介绍了如何在Spark中实现各种大数据应用场景。

企鹅号小编

2018-01-02

9930

一文读懂Apache Spark

spark apache hadoop

本文介绍了Apache Spark的四个主要版本，包括Spark 1.x、Spark 2.x、Spark 3.x和Spark 4.x，以及每个版本所包含的特性和改进。同时，文章还介绍了Spark在大数据处理、机器学习、图计算和流处理等领域的应用情况。最后，文章展望了Spark未来的发展方向，包括结构化流处理和深度学习的支持等。

企鹅号小编

2017-12-28

1.7K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态