首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

sparkstreaming(1)——实战

在spark的一开篇(可以见我的spark(1)这篇博客),我们就谈到了sparkstreaming可以快速的处理数据流。 我们可以从sparkstreaming处理新的流式数据再传给sparksql进行计算,或者spark生态中的MLlib去进行数据的实时更新进行机器学习等。 类比于spark-core和sparksql,写sparkstreaming代码也要创建自己的上下文Streaming Context(通过spark context来获取streaming context,并且还要指定一个时间间隔),通过Streaming Context获取到的数据可以称为DStreams模型,如果一个Streaming Context已经开启,那么就不允许新的DStream建立,并且当Streaming Context停止以后,就不允许重新启动,DStreams模型是由一串连续的RDD构成,每个RDD都有前面定义的时间间隔内的数据,所以操作DStreams里的数据其实也是操作RDD。 处理DSream的逻辑一定要在开启Streaming Context之前写完,一旦开启就不能添加新的逻辑方式。

01

每个数据科学专家都应该知道的六个概率分布

摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题

05
领券