腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
scala
数据
帧
中
迭代
时
,
如何
存储
指向
“
从
您
停止
的
地方
开始
”
的
指针
?
scala
、
apache-spark
假设我有一些正在读入
的
数据
帧
,每次我都想按排序
的
列显示前2行。下一次我读取该
数据
帧
时
,我不想从头
开始
,而是从上一次
停止
的
地方
显示下两行。我想我需要创建一些二进制
指针
列,告诉它在哪里
开始
/
停止
,当它到达结束
时
,它应该回到
开始
。
在
第一次遍历时,输出应该是前两行Mike和Kevin:
浏览 15
提问于2020-11-06
得票数 0
3
回答
createOrReplaceTempView
在
Spark
中
是
如何
工作
的
?
apache-spark
、
apache-spark-sql
、
spark-dataframe
我是
Spark
和
Spark
SQL
的
新手。如果我们将对象
的
RDD注册为表,
spark
会将所有
数据
保存在内存
中
吗?
浏览 87
提问于2017-05-17
得票数 74
回答已采纳
1
回答
org.apache.
spark
.SparkException:Job由于阶段故障而中止:java.lang.NullPointerException
scala
、
apache-spark
、
spark-streaming
我面临一个问题,
在
hadoop/纱线集群上运行
spark
-它在本地模式下运行良好,但是
在
集群模式下由于这个空
指针
异常而失败--我
在
本地和集群中都使用了SLAS1.6.2和
scala
2.10.6,这个应用程序是一个流应用程序,来自kakfa
的
流
数据
,下面是我获得空
指针
的
代码,我可以获得一些批
的
数据
,但是对于某些批,我得到了空
指针
,因为空
指针</
浏览 0
提问于2016-12-23
得票数 1
6
回答
Spark
Sql JDBC支持
apache-spark
目前,我们正在构建一个报告平台,作为我们使用Shark
的
数据
存储
。由于Shark
的
开发已经
停止
,所以我们正处于评估
Spark
SQL
的
阶段。基于我们已有的用例,我们有一些问题。1)我们有来自不同来源( MySQL、甲骨文、卡桑德拉、蒙戈)
的
数据
。我们想知道
如何
将这些
数据
放入
Spark
SQL
中
?有没有我们可以使用
的
实用程序?此实用程序是否支持连续
浏览 0
提问于2014-07-08
得票数 7
4
回答
Java
迭代
器循环一次,中间
开始
java
、
loops
、
collections
、
iterator
我有一个
迭代
器-放在我
的
集合中间
的
某个
地方
。如果我到达了!hasNext(),那么我想从头
开始
,但是如果我到达了我首先
开始
的
地方
,我就想
停止
。目前解决这个问题
的
最好办法似乎是保存"first“元素(我
开始
时
迭代
器
指向
的
位
浏览 4
提问于2017-11-08
得票数 3
1
回答
QByteArray来自QFile
c++
、
c
、
qt
、
opengl
我
在
我
的
项目中获得了访问权限,我想检查它们是否可以从这里来。
在
glTexImage3D()
中
,这是违反写
的
行为。
浏览 4
提问于2015-10-10
得票数 2
回答已采纳
1
回答
内存
中
的
火花--多次
迭代
scala
、
hadoop
、
apache-spark
、
hive
、
spark-dataframe
我有一个火花作业(运行在
spark
1.3.1
中
),它必须
迭代
几个键(大约42)并处理作业。这是程序
的
结构 当我只运行一个键
的
时候,一切都很好。当我使用42个键运行时,会在第12次
迭代
时
得到内存不足
的</e
浏览 3
提问于2016-10-31
得票数 2
1
回答
为什么我
的
数据
类型
在
作为Int
开始
时
是Any?
scala
、
types
、
spark-dataframe
我正在读入一个带有权重
的
有向边(源节点和目标节点)
的
文件;第一部分似乎工作得很好:import org.apache.
spark
.SparkContext按照与上面相同
的
思路,我成功地为每个节点构建了两个
数据
帧
,并将它们连接在一起。我还通过从输入和输出
数据
帧
生成一个unionAll (对输出使用负权重)并对它们求和来使其工作。所以,问题解决了,但在此过程<em
浏览 0
提问于2018-03-11
得票数 1
1
回答
STL向量pf
指向
向量
的
指针
是我
的
最佳选择吗?
vector
、
stl
我目前有一吨
的
矢量,全部设置为1200个项目,这是过度杀伤力,但可以使用。所以我不需要重新编码很多东西,什么是创建和
迭代
这些向量列表并根据需要调整它们大小
的
最好方法?(它们
的
大小相同) 我
的
一个选择是创建一个
指向
每个向量
的
指针
(
在
事实之后),然后创建这些
指针
的
一个向量,可以
迭代
以调整大小。另一种选择是首先将向量创建为
指针
而不是对象。这看起来会有很多工作要做,而且我
浏览 18
提问于2020-01-31
得票数 0
2
回答
嗨,当我运行下面的代码
时
,我得到
的
计数是0,为什么,我希望它显示文件
中
的
行数
python
、
python-3.x
、
filehandle
文件中有1910行,但是当我尝试打印行数
时
,我得到
的
结果是0,为什么?文件句柄已经打开了,只有当我
在
count变量之后再次打开文件句柄
时
,我才会得到正确
的
值,为什么会这样呢 fhandle=open('C:\\Users\\Gopi\\Documents\\Exercise
浏览 17
提问于2019-08-01
得票数 0
回答已采纳
1
回答
在
分流之前
在
spark
中进行缓存
apache-spark
、
apache-spark-sql
、
apache-spark-2.0
我有一个关于使用
Spark
DataFrame
的
基本问题。evaluation yet* // Write out subdf2 假设我
从
主
数据
帧
开始
(我懒惰地
从
CSV
中
读取),对这个
数据
帧
做一些操作(过滤,分组,连接现在,当我写出subdf1
时
,我清楚地看到,惰性求值
开始
起作用,并且
从</e
浏览 23
提问于2021-02-12
得票数 1
回答已采纳
1
回答
Databricks -将
Spark
dataframe转换为表:它是相同
的
数据
源吗?
apache-spark
、
apache-spark-sql
、
sparktable
您将需要执行相当多
的
计算,
从
源
数据
帧
,一个
Spark
表,不是吗?或者,dataframe和table都是
指向
相同
数据
的
指针
(即,
在
创建表
时
,不是
在
创建重复
数据
)?我猜我想要弄清楚
的
是,你是否可以从一个
Spark
数据
帧
到一个表‘开关开关’,或者这样做
的
计算量是否(非常)昂贵(毕
浏览 26
提问于2021-04-26
得票数 0
5
回答
如何
检查是否缓存了我
的
RDD或dataframe?
apache-spark
如何
检查这是否已缓存?还有一种方法,使我能够看到所有缓存
的
RDD或
数据
文件。
浏览 9
提问于2015-09-07
得票数 22
回答已采纳
3
回答
PySpark
数据
帧
性能调整
apache-spark
、
pyspark
我正在尝试合并一些脚本;让我们只读一次DB,而不是每个脚本
从
Hive读取相同
的
数据
。因此,转移到只读一次;处理多个模型。我持久化了
数据
帧
并在每次聚合后重新划分输出;但我需要它更快,如果有什么不同的话,那就是这些东西减慢了它
的
速度。我们每天都有20TB+
的
数据
,所以我认为如果
数据
要被多次读取,那么持久化
数据
会让事情变得更快,但事实并非如此。 此外,我有很多工作发生在相同
的
数据
,如下图
浏览 0
提问于2020-04-23
得票数 0
1
回答
在
C++
中
,
迭代
器失效规则是否也适用于所有std容器
的
指针
?
c++
、
c++11
、
pointers
、
iterator
、
std
我有一个包含一些元素
的
容器C。
在
我
的
算法
中
,这些元素需要被分成两个子组:C1和C2,在那里它们将被排序。现在,为了避免两次
存储
相同
的
数据
,这两个子组可以是
指向
容器C
中
的
元素
的
一组
迭代
器。我知道,当遵循
时
,
迭代
器会
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
4
回答
java.lang.NoClassDefFoundError:
scala
/reflect/ClassManifest
scala
、
apache-spark
当我试图
在
spark
上运行一个例子时,我得到了一个错误。谁能请让我知道我需要对我
的
pom.xml做哪些更改才能运行
spark
程序。
浏览 0
提问于2013-08-07
得票数 3
1
回答
迭代
C#
中
的
spark
dataframe列
c#
、
dataframe
、
apache-spark
、
apache-spark-sql
、
spark-dotnet
我正在使用microsoft.
spark
版本1.0.0来处理
从
网络接收到
的
一个parquet文件。我已经将包文件映射到一个
数据
帧
中
,并且我正在尝试
从
存储
为电子邮件地址
的
userid列
中
剥离别名(用户testuser保存为testuser@gmail.com)。似乎找不到
如何
将列转换为可枚举
的
方法,并且没有内置
的
方式来
迭代
列。任何
指针</e
浏览 29
提问于2020-12-04
得票数 0
回答已采纳
2
回答
在
设定频率后刷新缓存
的
Spark
数据
帧
apache-spark
、
apache-spark-sql
、
spark-streaming
我正在开发一个SparkStreaming解决方案,在这个解决方案
中
,一个配置单元表被缓存为一个
数据
帧
,然后流事件将与缓存
的
数据
帧
结合起来,以产生结果。然而,问题是Hive表将以特定
的
频率更新,因此缓存
的
Dataframe也应该相应地更新。有没有任何方法,比如说TTL或任何其他围绕缓存
数据
帧
的
机制,其中
数据
以特定
的
时间间隔自动刷新更新
的
Hive表
浏览 0
提问于2018-07-04
得票数 0
1
回答
如何
在
数据
库中使用pandad pd.read_excel
从
/Filestore/tables/目录读取excel文件?
python
、
pandas
、
pyspark
、
databricks
嗨,我正在尝试读取一个excel文件,这是
从
用户界面上传到DBX文件
存储
。我可以看到该文件位于/Filestore/tables目录下,并且我正在尝试使用以下代码创建一个pandas
数据
帧
df = pd.read_excel("/dbfs我想知道
如何
使用python
从
文件
存储
中
指向
该文件。我尝试过
的
东西: 我
在
路径中使用了/F
浏览 5
提问于2021-05-19
得票数 1
1
回答
C++
指针
向量
如何
影响性能?
c++
、
performance
、
pointers
、
vector
、
stl
我想知道
指向
对象
的
指针
的
向量
如何
影响程序
的
性能,而不是使用直接包含对象
的
std::向量。具体来说,我指的是程序
的
速度。我被教导在其他STL (如std::list )之上使用std::vector来表示它
的
速度,因为它
的
所有
数据
都被连续地
存储
在内存
中
,而不是被碎片化。这意味着
迭代
元素
的
速度很快,但是我
的
想法是,
浏览 3
提问于2017-04-19
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据框架之从Hadoop到Spark详解
从Hadoop到Spark,看大数据框架发展之路
年薪50万+的大数据工程师需要具备哪些技能?
1.Spark 简介
Java Jvm虚拟机的内存模型概述
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券