腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
计数
group
by
中
的
字数
sql
、
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
20170319| error1| 2 |20170319| err6| 1 val dataset =
spark
.read.json(path); val c =dataset.groupBy("date").count() //如何继续统计错误 我尝试过在
spark
scala sql
中
对date进行窗口操作,但无法找到有效
的
方法
浏览 13
提问于2019-03-02
得票数 3
回答已采纳
1
回答
批间火花流数据共享
apache-spark
、
spark-streaming
但是我
的
用例需要在间隔之间共享数据。我将如何产生以下
字数
?1第一间隔给出所有单词
的
正常
字数
。对于所有其他单词,它应该给出正常
的
单词
计数
。这是一个简单
的
例子和说明。在实际用例
中</e
浏览 2
提问于2015-05-05
得票数 8
回答已采纳
2
回答
在
Spark
Streaming
中
,如何检测空
的
批处理?
apache-spark
在
Spark
Streaming
中
,如何检测空
的
批处理? 让我们以有状态流
字数
统计为例:。是否可以仅在将新单词添加到流
中
时才打印单词
计数
RDD?
浏览 3
提问于2015-03-19
得票数 6
1
回答
Datalab BigQuery数据到Dataproc Hadoop
字数
apache-spark
、
hadoop
、
google-bigquery
、
google-cloud-dataproc
、
google-cloud-datalab
我目前在Google BigQuery上有一些reddit数据,我想对选择
的
subreddits上
的
所有评论做一个单词
计数
。查询大约是90GiB,因此不可能直接加载到DataLab
中
并转换为数据帧。有人建议我使用DataProc
中
的
Hadoop或
Spark
作业来创建
字数
统计,并设置一个连接器将BigQuery数据导入到DataProc
中
,以便DataProc可以进行
字数
统计。我如何在DataLab
中
浏览 33
提问于2021-10-25
得票数 1
2
回答
如何保存
spark
结构化流媒体
中
水印丢弃
的
记录
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
水印允许自动丢弃Apache
Spark
结构化流
中
的
旧状态数据。在structured-streaming-programming-guide.md
中
,
字数
计数
示例演示了水印如何轻松地丢弃系统
中
较晚到达
的
记录或事件。( )有没有办法保存通过在磁盘或表
中
添加水印而丢失或丢弃
的
记录?
浏览 1
提问于2020-02-27
得票数 2
2
回答
带有火花流道
的
Apache
字数
示例在“未知
的
' runner‘指定
的
’SparkRunner‘
中
失败
apache-spark
、
apache-beam
我试图通过提供以下命令来完成Apache波束
字数
计数
示例
的
星火提交。
spark
-submit --class org.apache.beam.examples.WordCount word-count-beam-0.1.jar --inputFile=pom.xml --output=counts --runner=SparkRunner 线程"main“java.lang.IllegalArgumentException
中
的
异常:未知
的
&
浏览 3
提问于2017-07-06
得票数 1
1
回答
Spark
中
的
任务是什么?
Spark
worker如何执行jar文件?
apache-spark
、
distributed-computing
在阅读了一些关于
的
文档后,我有一些问题需要澄清。以
Spark
中
的
例子为例: new SparkConf().setJars("...").setSparkHome....);
浏览 0
提问于2014-08-13
得票数 48
回答已采纳
1
回答
Spark
/Scala近似分组方式
scala
、
apache-spark
、
apache-spark-sql
在
Spark
中
的
sql数据集上,有没有一种在
group
by之后近似
计数
的
方法?或者更一般地说,在
Spark
中
计数
分组
的
最快方法是什么?
浏览 28
提问于2020-04-06
得票数 2
回答已采纳
1
回答
字
计数
程序在火花中不产生期望输出
apache-spark
我正在为
spark
中
的
单词
计数
编写代码,但是它给了我一个数组
的
输出,在使用映射后
的
某个时间给出了rdd:-我已经试过了代码-> val f = sc.textFile("/root/Desktop/BigData/ScalaPro
浏览 0
提问于2019-08-18
得票数 0
回答已采纳
1
回答
不使用“wordcount.java - example”脚本运行
Spark
Kafka示例
java
、
apache-kafka
、
apache-spark
我正在尝试运行
Spark
中
的
字数
统计示例,它将从Kafka中流式传输数据。。然而,我发现Cloudera
Spark
发行版与孵化器发行版略有不同。我运行
spark
shell和从那里运行
字数
统计示例都没有问题。但是,bin文件夹
中
没有"run- example“脚本,如示例源代码所示。 * `.zoo03 my-consumer-
group
topic1,topic2 1` 我是jar
的
浏览 0
提问于2014-03-03
得票数 4
1
回答
Spark
-Scala在文本文件
中
写入输出
scala
、
apache-spark
我正在执行
spark
中
的
wordcount程序,并试图将结果存储在一个文本文件
中
。import org.apache.
spark
._程序执行后,我得到
的
消息是"defined object SparkWordCount我
的
浏览 0
提问于2017-10-10
得票数 0
1
回答
如何使用Dataset API编写
字数
统计?
java
、
apache-spark
、
apache-spark-sql
我需要写一个单独使用
spark
数据集
的
字数
统计逻辑。 我使用
spark
的
JavaRDD类实现了相同
的
过程,但我希望使用
Spark
SQL
的
Dataset<Row>类来完成相同
的
过程。如何在
Spark
SQL中进行
字数
统计?
浏览 10
提问于2017-07-20
得票数 2
回答已采纳
1
回答
从kafka到弹性搜索索引
的
Spark
流
elasticsearch
、
apache-spark
、
apache-kafka
、
spark-streaming
我正在尝试使用
Spark
Streaming将Kafka输入索引到elasticsearch
中
。kafka
中
的
消息是这样
的
:我想在
Spark
Streaming
中
定义结构,以便在elasticsearch
中
索引此消息:我读过有关RDD转换
的
文章,但找不到如何定义值
的</
浏览 1
提问于2016-02-10
得票数 1
2
回答
关于mysql
的
一个问题
php
、
mysql
执行以下MySQL查询时: $sql = "SELECT username,wordpermin FROM user_records
GROUP
BY(username) ORDER BY wordperminDESC LIMIT 20"; 我面临
的
问题如下: 我正在为网站制作一个表格,我想在那里显示具有最高word-per-min
计数
的
用户。然而,由于我使用
的
是
GROUP
BY(username),所以这个
计数
是正确
的
。它不会给我
浏览 24
提问于2020-04-03
得票数 0
回答已采纳
1
回答
启动
spark
R上下文作业后出现SparkR sql上下文错误
r
、
apache-spark
、
sparkr
我已经安装了sparkR软件包,并且我能够在文档.But
中
运行其他计算作业,如圆周率
计数
或
字数
计数
当我试图启动sparkRSql作业时,它会给出一个错误.Can有人能帮我吗?我使用
的
是R版本3.2.0和
Spark
1.3.1> sc1 <- sparkR.init(master="local") Launching java withaddress: 127.0.0.1; using 172.17.42.1 in
浏览 1
提问于2015-07-09
得票数 0
1
回答
如果只有一个map reduce任务,map reduce会提供与
spark
相同
的
性能吗?
apache-spark
、
mapreduce
、
bigdata
大多数bigdata作业没有单独
的
mapreduce作业,因此
spark
通过将中间数据存储在内存
中
并避免在HDFS上进行复制来发挥作用。我
的
问题是,如果只有一个mapreduce作业,比如wordcount。mapreduce作业是否提供了与
spark
相同
的
性能?若否,原因为何?这可能是一个一般性
的
问题,但我正在尝试理解
spark
的
深入架构。
浏览 2
提问于2017-05-13
得票数 0
1
回答
使用PySpark维护从侦听TCP套接字
的
数据服务器接收
的
文本数据
的
运行
字数
。不接收输出[Windows]
python
、
apache-spark
、
pyspark
、
jupyter-notebook
、
spark-structured-streaming
实际上,我希望维护从监听TCP套接字
的
数据服务器接收
的
文本数据
的
运行
字数
。我正在使用netcat监听套接字,并在木星笔记本
中
运行python来使用
Spark
并计算我
的
字数
。我正在运行windows,因此我使用nc -l -p 9999在命令终端
中
启动netcat会话。") \ .readStream \ .format(
浏览 6
提问于2022-02-08
得票数 0
1
回答
使用按聚合分区
的
窗口函数将
Spark
转换为Scala
sql-server
、
scala
、
apache-spark
、
apache-spark-sql
我有以下
Spark
查询: "( select garment_
group
_name , prod_name, " +然而,我试图做
的
事情和数据框架API完全一样。我只想先专注于子查询部分,然后做了这样
的
事情 import org.apache.
spark
.sql.expressions.Window // imports the needed Windo
浏览 7
提问于2022-04-12
得票数 1
回答已采纳
1
回答
Spark
-使用java
的
字数
统计
java
、
apache-spark
、
word-count
我是
Spark
的
新手,我想使用Dataset类从文本文件中提取特征(基本上是
字数
)。我读过
Spark
上
的
教程,但报告
的
每个示例都是从一大堆定义为“在飞行
中
”
的
单词开始
的
。下面是我
的
代码: .builder() .appName("Simple application=
浏览 2
提问于2017-09-18
得票数 0
1
回答
Kafka序列化错误
的
Spark
字数
计数
scala
、
apache-spark
、
apache-kafka
我正在尝试用Scala做一个Kafka和
Spark
的
用例。我使用kafka libs构建了一个消费者和一个生产者,现在我正在构建使用
Spark
计算单词
的
数据处理器。" %% "
spark
-core" % "2.2.0", "org.apache
浏览 0
提问于2017-12-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SQLite中的GROUP BY语句
使用SQL理解Django中的Group By
MySQL 中的 distinct和group by 哪个效率更高?
flink和spark Streaming中的Back Pressure
GC调优在Spark应用中的实践
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券