腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
计数
group
by
中
的
字数
sql
、
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
20170319| error1| 2 |20170319| err6| 1 val dataset =
spark
.read.json(path); val c =dataset.groupBy("date").count() //如何继续统计错误 我尝试过在
spark
scala sql
中
对date进行窗口操作,但无法找到有效
的
方法
浏览 13
提问于2019-03-02
得票数 3
回答已采纳
1
回答
批间火花流数据共享
apache-spark
、
spark-streaming
但是我
的
用例需要在间隔之间共享数据。我将如何产生以下
字数
?1第一间隔给出所有单词
的
正常
字数
。对于所有其他单词,它应该给出正常
的
单词
计数
。这是一个简单
的
例子和说明。在实际用例
中</e
浏览 2
提问于2015-05-05
得票数 8
回答已采纳
2
回答
在
Spark
Streaming
中
,如何检测空
的
批处理?
apache-spark
在
Spark
Streaming
中
,如何检测空
的
批处理? 让我们以有状态流
字数
统计为例:。是否可以仅在将新单词添加到流
中
时才打印单词
计数
RDD?
浏览 3
提问于2015-03-19
得票数 6
1
回答
Datalab BigQuery数据到Dataproc Hadoop
字数
apache-spark
、
hadoop
、
google-bigquery
、
google-cloud-dataproc
、
google-cloud-datalab
我目前在Google BigQuery上有一些reddit数据,我想对选择
的
subreddits上
的
所有评论做一个单词
计数
。查询大约是90GiB,因此不可能直接加载到DataLab
中
并转换为数据帧。有人建议我使用DataProc
中
的
Hadoop或
Spark
作业来创建
字数
统计,并设置一个连接器将BigQuery数据导入到DataProc
中
,以便DataProc可以进行
字数
统计。我如何在DataLab
中
浏览 33
提问于2021-10-25
得票数 1
2
回答
如何保存
spark
结构化流媒体
中
水印丢弃
的
记录
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
水印允许自动丢弃Apache
Spark
结构化流
中
的
旧状态数据。在structured-streaming-programming-guide.md
中
,
字数
计数
示例演示了水印如何轻松地丢弃系统
中
较晚到达
的
记录或事件。( )有没有办法保存通过在磁盘或表
中
添加水印而丢失或丢弃
的
记录?
浏览 1
提问于2020-02-27
得票数 2
2
回答
带有火花流道
的
Apache
字数
示例在“未知
的
' runner‘指定
的
’SparkRunner‘
中
失败
apache-spark
、
apache-beam
我试图通过提供以下命令来完成Apache波束
字数
计数
示例
的
星火提交。
spark
-submit --class org.apache.beam.examples.WordCount word-count-beam-0.1.jar --inputFile=pom.xml --output=counts --runner=SparkRunner 线程"main“java.lang.IllegalArgumentException
中
的
异常:未知
的
&
浏览 3
提问于2017-07-06
得票数 1
1
回答
Spark
中
的
任务是什么?
Spark
worker如何执行jar文件?
apache-spark
、
distributed-computing
在阅读了一些关于
的
文档后,我有一些问题需要澄清。以
Spark
中
的
例子为例: new SparkConf().setJars("...").setSparkHome....);
浏览 0
提问于2014-08-13
得票数 48
回答已采纳
1
回答
Spark
/Scala近似分组方式
scala
、
apache-spark
、
apache-spark-sql
在
Spark
中
的
sql数据集上,有没有一种在
group
by之后近似
计数
的
方法?或者更一般地说,在
Spark
中
计数
分组
的
最快方法是什么?
浏览 28
提问于2020-04-06
得票数 2
回答已采纳
1
回答
字
计数
程序在火花中不产生期望输出
apache-spark
我正在为
spark
中
的
单词
计数
编写代码,但是它给了我一个数组
的
输出,在使用映射后
的
某个时间给出了rdd:-我已经试过了代码-> val f = sc.textFile("/root/Desktop/BigData/ScalaPro
浏览 0
提问于2019-08-18
得票数 0
回答已采纳
1
回答
不使用“wordcount.java - example”脚本运行
Spark
Kafka示例
java
、
apache-kafka
、
apache-spark
我正在尝试运行
Spark
中
的
字数
统计示例,它将从Kafka中流式传输数据。。然而,我发现Cloudera
Spark
发行版与孵化器发行版略有不同。我运行
spark
shell和从那里运行
字数
统计示例都没有问题。但是,bin文件夹
中
没有"run- example“脚本,如示例源代码所示。 * `.zoo03 my-consumer-
group
topic1,topic2 1` 我是jar
的
浏览 0
提问于2014-03-03
得票数 4
1
回答
Spark
-Scala在文本文件
中
写入输出
scala
、
apache-spark
我正在执行
spark
中
的
wordcount程序,并试图将结果存储在一个文本文件
中
。import org.apache.
spark
._程序执行后,我得到
的
消息是"defined object SparkWordCount我
的
浏览 0
提问于2017-10-10
得票数 0
1
回答
如何使用Dataset API编写
字数
统计?
java
、
apache-spark
、
apache-spark-sql
我需要写一个单独使用
spark
数据集
的
字数
统计逻辑。 我使用
spark
的
JavaRDD类实现了相同
的
过程,但我希望使用
Spark
SQL
的
Dataset<Row>类来完成相同
的
过程。如何在
Spark
SQL中进行
字数
统计?
浏览 10
提问于2017-07-20
得票数 2
回答已采纳
1
回答
从kafka到弹性搜索索引
的
Spark
流
elasticsearch
、
apache-spark
、
apache-kafka
、
spark-streaming
我正在尝试使用
Spark
Streaming将Kafka输入索引到elasticsearch
中
。kafka
中
的
消息是这样
的
:我想在
Spark
Streaming
中
定义结构,以便在elasticsearch
中
索引此消息:我读过有关RDD转换
的
文章,但找不到如何定义值
的</
浏览 1
提问于2016-02-10
得票数 1
2
回答
关于mysql
的
一个问题
php
、
mysql
执行以下MySQL查询时: $sql = "SELECT username,wordpermin FROM user_records
GROUP
BY(username) ORDER BY wordperminDESC LIMIT 20"; 我面临
的
问题如下: 我正在为网站制作一个表格,我想在那里显示具有最高word-per-min
计数
的
用户。然而,由于我使用
的
是
GROUP
BY(username),所以这个
计数
是正确
的
。它不会给我
浏览 24
提问于2020-04-03
得票数 0
回答已采纳
1
回答
启动
spark
R上下文作业后出现SparkR sql上下文错误
r
、
apache-spark
、
sparkr
我已经安装了sparkR软件包,并且我能够在文档.But
中
运行其他计算作业,如圆周率
计数
或
字数
计数
当我试图启动sparkRSql作业时,它会给出一个错误.Can有人能帮我吗?我使用
的
是R版本3.2.0和
Spark
1.3.1> sc1 <- sparkR.init(master="local") Launching java withaddress: 127.0.0.1; using 172.17.42.1 in
浏览 1
提问于2015-07-09
得票数 0
1
回答
如果只有一个map reduce任务,map reduce会提供与
spark
相同
的
性能吗?
apache-spark
、
mapreduce
、
bigdata
大多数bigdata作业没有单独
的
mapreduce作业,因此
spark
通过将中间数据存储在内存
中
并避免在HDFS上进行复制来发挥作用。我
的
问题是,如果只有一个mapreduce作业,比如wordcount。mapreduce作业是否提供了与
spark
相同
的
性能?若否,原因为何?这可能是一个一般性
的
问题,但我正在尝试理解
spark
的
深入架构。
浏览 2
提问于2017-05-13
得票数 0
1
回答
使用PySpark维护从侦听TCP套接字
的
数据服务器接收
的
文本数据
的
运行
字数
。不接收输出[Windows]
python
、
apache-spark
、
pyspark
、
jupyter-notebook
、
spark-structured-streaming
实际上,我希望维护从监听TCP套接字
的
数据服务器接收
的
文本数据
的
运行
字数
。我正在使用netcat监听套接字,并在木星笔记本
中
运行python来使用
Spark
并计算我
的
字数
。我正在运行windows,因此我使用nc -l -p 9999在命令终端
中
启动netcat会话。") \ .readStream \ .format(
浏览 6
提问于2022-02-08
得票数 0
1
回答
使用按聚合分区
的
窗口函数将
Spark
转换为Scala
sql-server
、
scala
、
apache-spark
、
apache-spark-sql
我有以下
Spark
查询: "( select garment_
group
_name , prod_name, " +然而,我试图做
的
事情和数据框架API完全一样。我只想先专注于子查询部分,然后做了这样
的
事情 import org.apache.
spark
.sql.expressions.Window // imports the needed Windo
浏览 7
提问于2022-04-12
得票数 1
回答已采纳
1
回答
Spark
-使用java
的
字数
统计
java
、
apache-spark
、
word-count
我是
Spark
的
新手,我想使用Dataset类从文本文件中提取特征(基本上是
字数
)。我读过
Spark
上
的
教程,但报告
的
每个示例都是从一大堆定义为“在飞行
中
”
的
单词开始
的
。下面是我
的
代码: .builder() .appName("Simple application=
浏览 2
提问于2017-09-18
得票数 0
1
回答
Kafka序列化错误
的
Spark
字数
计数
scala
、
apache-spark
、
apache-kafka
我正在尝试用Scala做一个Kafka和
Spark
的
用例。我使用kafka libs构建了一个消费者和一个生产者,现在我正在构建使用
Spark
计算单词
的
数据处理器。" %% "
spark
-core" % "2.2.0", "org.apache
浏览 0
提问于2017-12-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SQLite中的GROUP BY语句
使用SQL理解Django中的Group By
MySQL 中的 distinct和group by 哪个效率更高?
flink和spark Streaming中的Back Pressure
GC调优在Spark应用中的实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券