腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(25)
视频
沙龙
0
回答
大数据平台几种计算引擎配置和资源规划?
存储
、
spark
、
大数据
1、大数据平台中,mapreduce、
spark
、sparkstream、flink几种计算引擎配置如何规划,包括服务器的CPU要求、内存容量、网卡配置、硬盘配置等?2、若采用yarn作为资源管理,计算引擎和yarn等管
控
节点的数量配比是多少?6-100台计算引擎配置7台管
控
引擎?还是如何?
浏览 144
提问于2021-12-24
1
回答
不同端口上的SparkThrift服务器
apache-spark
、
apache-spark-sql
我正在尝试在不同的端口上运行
Spark
thrift服务器,比如12000。我引用了
Spark
sql文档和其他port.It,但我不能在不同的urls上运行
Spark
thrift服务器,也不能在端口10000上运行,因为它正在被Hive使用。 我还引用了并进行了更改。已尝试从
Spark
_home/sbin>导出HIVE_SERVER2_THRIFT_PORT=12000启动
Spark
thrift。环境: CDH5.3.3,
SPark
1.2.0,Hive 0.13.
浏览 0
提问于2015-04-17
得票数 4
1
回答
蜂巢:压实需要多长时间?
apache-spark
、
hive
蜂巢版本: 3.1.0.3.1.4.0-315火花版本: 2.3.2.3.1.4.0-315 基本上,我试图从
spark
读取事务性表数据。根据这个页面,https://stackoverflow.com/questions/50254590/how-to-read-orc-transaction-hive-table-in-
spark
,发现事务性表必须压缩我想知道这是否是一个好的approach.Also,,如何监控压缩作业过程,而不是显示压
实
?我只能从hiveserver_stdout.l
浏览 4
提问于2022-03-02
得票数 0
2
回答
为事务启用的配置单元存储区表
apache-spark
、
hive
、
transactional
、
orc
into 3 buckets stored as orc TBLPROPERTIES ( 'transactional'='true')如果我们重新启动Thrift Server,则该表仅显示表中的数据。
浏览 1
提问于2015-11-23
得票数 2
1
回答
HBase表大小在一段时间后减小
hadoop
、
hbase
、
hdfs
、
bigdata
我们已经采取了这样的步骤: 大csv文件(大小:20G)正在由
Spark
应用程序处理,结果是hfiles (结果数据大小: 180 G)。这是主要的压
实
吗?
浏览 1
提问于2017-08-24
得票数 2
回答已采纳
1
回答
使用numpy数组输入从python方法创建PySpark UDF,以计算和返回单个浮点值
numpy
、
pyspark
、
apache-spark-sql
、
user-defined-functions
、
pyspark-dataframes
spark
_df =
spark
.read.option("header", "false").csv("../int_values.csv") def calc_sum(float_array): return np.sum(f
浏览 4
提问于2021-02-08
得票数 2
回答已采纳
1
回答
火花中csv的多行标题
csv
、
apache-spark
、
hadoop
、
hdfs
我需要
Spark
为HDFS编写一个压缩的csv文件,但我需要它从几行版本信息开始。file1.csv.gz,然后使用hadoop fs -cat将其流到hdfs://data/data/file1.csv.gz,将输出数据报转换为文本格式/ RDD[String],并将带有额外头行的
实
文件合并为
浏览 0
提问于2020-01-31
得票数 0
1
回答
如何证明这个不变量?
ada
、
proof
、
invariants
、
proof-of-correctness
、
spark-ada
为此,我将Horner目前计算的值与“
实
”多标称的值进行比较。所以我做了一段代码: function Horner (X : Integer; A : Vector) return Integer
浏览 3
提问于2021-03-24
得票数 8
回答已采纳
1
回答
AUC b/w Apache-
Spark
的GBT和sklearn的区别
apache-spark
、
scikit-learn
、
pyspark
、
apache-spark-mllib
我尝试了使用Python的sklearn和
Spark
的本地独立MLlib实现的GBDT,默认设置用于解决二进制分类问题。在这两种情况下,我保持numIterations,损失函数相同。这些特征都是
实
值的和连续的。然而,与sklearn相比,MLLib实现中的AUC相差甚远。
浏览 0
提问于2015-12-10
得票数 1
1
回答
星星之火将Scala对象所有的方法都注册为UDF
scala
、
apache-spark
、
apache-spark-sql
、
bigdata
}// If I use: registeredAllMethod("
浏览 0
提问于2022-03-11
得票数 0
3
回答
在触
控
设备上滚动Flex Hero Mobile中的可编辑
spark
TextArea
apache-flex
、
flex4
、
blackberry-playbook
、
flex4.5
我很难弄清楚这件事...我正在Blackberry Playbook模拟器(我的应用程序的目标设备)中测试代码。谢谢,
浏览 0
提问于2011-03-22
得票数 0
1
回答
C*中的压
实
过程对火花作业有影响吗?
apache-spark
、
cassandra
、
opscenter
、
spark-cassandra-connector
我在大C*表(2,034,065,959行)上执行了
spark
迁移工作--使用以下方法将其迁移到另一个模式表(new_table): some_mapped_rdd.saveToCassandra("keyspace那么C*中的压
实
过程对火花作业有影响吗?
浏览 2
提问于2016-01-18
得票数 1
回答已采纳
2
回答
如何从PySpark中的2列中获得一行序列字符串?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我有以下数据结构:列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如,“新”栏如下:有使用PySpark的好方法吗?from pyspark.sql.functions import udffrom pyspark.sql.types import ArrayType, StringType create_transition = u
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
1
回答
spark
MLlib:转换和管理分类特性
apache-spark
、
pca
、
feature-selection
、
apache-spark-mllib
、
svd
例如:真正的分类特征
实
值:非常高的基数编码值:? ( b)你有什么suggestions来处理这么多的绝对价值吗?
浏览 0
提问于2015-11-27
得票数 1
3
回答
闪光效果iOS
ios
、
core-animation
我想要在视频中显示的图像上创建闪光效果,这是我唯一能想到的方法,使用核心动画分别设置每个粒子的动画,但这将是低效和耗时的。有没有其他方法可以让我做同样的事情?
浏览 3
提问于2013-05-07
得票数 6
回答已采纳
1
回答
修复Cassandra数据库
database
、
cassandra
我和我的同事被扔进一个没有介绍的使用卡桑德拉的项目中。好吧,让我们开始吧!Error: 1300 显然,我们有太多的墓碑了。那是什么?墓碑被删除的数据还没有被删除,因为性能原因。墓碑应在nodetool repair过期前用gc_grace_period删除,默认为10天。现在,这个项目已经有7年的历史了,而且似乎没有一个运行repair的工作。根据默认警告和错误值,1K墓碑是很多。我们发现大约140万。我们使用T
浏览 0
提问于2020-09-30
得票数 1
2
回答
如何评价卡桑德拉的表现?
mapreduce
、
cassandra
、
cassandra-2.0
、
query-performance
我是卡桑德拉新来的。我对Cassandra数据库进行了一些研究和测试,并提出了一些问题:
浏览 0
提问于2015-12-10
得票数 2
回答已采纳
2
回答
超过memtable_cleanup_threshold时卡桑德拉阻塞写入的处理
scala
、
cassandra
、
spark-streaming
、
cassandra-3.0
我的
spark
应用程序从kafka获取数据并不断插入到Cassandra中,在特定时间后挂起,我已经分析过,在nodetool compactionstats中有许多挂起的任务。: 1.0 Dropped Mutations: 359 更改压
实
策略后
浏览 1
提问于2019-02-13
得票数 0
1
回答
如何并行执行
Spark
而不重新分区
apache-spark
、
parallel-processing
、
apache-spark-sql
、
stanford-nlp
、
user-defined-functions
pmid AS id LIMIT 15000000根据parquets的数量,我将DataFrame重新划分为
spark
实
问题 刚才发生了什么?我认为UDF在Dataframe上会在默认情况下并行运行。如果partions/任务的数量多于或少于核心的总数,但至少在默认的200个分区/任务上并行,则可以进行重新分区。(简单的UDF当您将一种类型的列从int转换到bigint时,可能是不可见的,但是当您执行NLP时,它确实是可
浏览 2
提问于2017-07-17
得票数 4
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券