spark实时风控 - 腾讯云开发者社区

文章/答案/技术大牛

发布

0回答

大数据平台几种计算引擎配置和资源规划？

存储、spark、大数据

1、大数据平台中，mapreduce、spark、sparkstream、flink几种计算引擎配置如何规划，包括服务器的CPU要求、内存容量、网卡配置、硬盘配置等？2、若采用yarn作为资源管理，计算引擎和yarn等管控节点的数量配比是多少？6-100台计算引擎配置7台管控引擎？还是如何？

浏览 144提问于2021-12-24

1回答

我正在尝试在不同的端口上运行Spark thrift服务器，比如12000。我引用了Spark sql文档和其他port.It，但我不能在不同的urls上运行Spark thrift服务器，也不能在端口10000上运行，因为它正在被Hive使用。我还引用了并进行了更改。已尝试从Spark_home/sbin>导出HIVE_SERVER2_THRIFT_PORT=12000启动Spark thrift。环境: CDH5.3.3，SPark 1.2.0，Hive 0.13.

浏览 0提问于2015-04-17得票数 4

1回答

蜂巢:压实需要多长时间？

apache-spark、hive

蜂巢版本: 3.1.0.3.1.4.0-315火花版本: 2.3.2.3.1.4.0-315 基本上，我试图从spark读取事务性表数据。根据这个页面，https://stackoverflow.com/questions/50254590/how-to-read-orc-transaction-hive-table-in-spark，发现事务性表必须压缩我想知道这是否是一个好的approach.Also，，如何监控压缩作业过程，而不是显示压实？我只能从hiveserver_stdout.l

浏览 4提问于2022-03-02得票数 0

2回答

为事务启用的配置单元存储区表

apache-spark、hive、transactional、orc

into 3 buckets stored as orc TBLPROPERTIES ( 'transactional'='true')如果我们重新启动Thrift Server，则该表仅显示表中的数据。

浏览 1提问于2015-11-23得票数 2

1回答

HBase表大小在一段时间后减小

hadoop、hbase、hdfs、bigdata

我们已经采取了这样的步骤：大csv文件(大小:20G)正在由Spark应用程序处理，结果是hfiles (结果数据大小: 180 G)。这是主要的压实吗？

浏览 1提问于2017-08-24得票数 2

回答已采纳

1回答

使用numpy数组输入从python方法创建PySpark UDF，以计算和返回单个浮点值

numpy、pyspark、apache-spark-sql、user-defined-functions、pyspark-dataframes

spark_df = spark.read.option("header", "false").csv("../int_values.csv") def calc_sum(float_array): return np.sum(f

浏览 4提问于2021-02-08得票数 2

回答已采纳

1回答

火花中csv的多行标题

csv、apache-spark、hadoop、hdfs

我需要Spark为HDFS编写一个压缩的csv文件，但我需要它从几行版本信息开始。file1.csv.gz，然后使用hadoop fs -cat将其流到hdfs://data/data/file1.csv.gz，将输出数据报转换为文本格式/ RDD[String]，并将带有额外头行的实文件合并为

浏览 0提问于2020-01-31得票数 0

1回答

如何证明这个不变量？

ada、proof、invariants、proof-of-correctness、spark-ada

为此，我将Horner目前计算的值与“实”多标称的值进行比较。所以我做了一段代码： function Horner (X : Integer; A : Vector) return Integer

浏览 3提问于2021-03-24得票数 8

回答已采纳

1回答

AUC b/w Apache-Spark的GBT和sklearn的区别

apache-spark、scikit-learn、pyspark、apache-spark-mllib

我尝试了使用Python的sklearn和Spark的本地独立MLlib实现的GBDT，默认设置用于解决二进制分类问题。在这两种情况下，我保持numIterations，损失函数相同。这些特征都是实值的和连续的。然而，与sklearn相比，MLLib实现中的AUC相差甚远。

浏览 0提问于2015-12-10得票数 1

1回答

星星之火将Scala对象所有的方法都注册为UDF

scala、apache-spark、apache-spark-sql、bigdata

}// If I use: registeredAllMethod("

浏览 0提问于2022-03-11得票数 0

3回答

在触控设备上滚动Flex Hero Mobile中的可编辑spark TextArea

apache-flex、flex4、blackberry-playbook、flex4.5

我很难弄清楚这件事...我正在Blackberry Playbook模拟器(我的应用程序的目标设备)中测试代码。谢谢,

浏览 0提问于2011-03-22得票数 0

1回答

C*中的压实过程对火花作业有影响吗？

apache-spark、cassandra、opscenter、spark-cassandra-connector

我在大C*表(2,034,065,959行)上执行了spark迁移工作--使用以下方法将其迁移到另一个模式表(new_table)： some_mapped_rdd.saveToCassandra("keyspace那么C*中的压实过程对火花作业有影响吗？

浏览 2提问于2016-01-18得票数 1

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？from pyspark.sql.functions import udffrom pyspark.sql.types import ArrayType, StringType create_transition = u

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

spark MLlib:转换和管理分类特性

apache-spark、pca、feature-selection、apache-spark-mllib、svd

例如:真正的分类特征实值:非常高的基数编码值：？ ( b)你有什么suggestions来处理这么多的绝对价值吗？

浏览 0提问于2015-11-27得票数 1

3回答

闪光效果iOS

ios、core-animation

我想要在视频中显示的图像上创建闪光效果，这是我唯一能想到的方法，使用核心动画分别设置每个粒子的动画，但这将是低效和耗时的。有没有其他方法可以让我做同样的事情？

浏览 3提问于2013-05-07得票数 6

回答已采纳

1回答

修复Cassandra数据库

database、cassandra

我和我的同事被扔进一个没有介绍的使用卡桑德拉的项目中。好吧，让我们开始吧！Error: 1300 显然，我们有太多的墓碑了。那是什么？墓碑被删除的数据还没有被删除，因为性能原因。墓碑应在nodetool repair过期前用gc_grace_period删除，默认为10天。现在，这个项目已经有7年的历史了，而且似乎没有一个运行repair的工作。根据默认警告和错误值，1K墓碑是很多。我们发现大约140万。我们使用T

浏览 0提问于2020-09-30得票数 1

2回答

如何评价卡桑德拉的表现？

mapreduce、cassandra、cassandra-2.0、query-performance

我是卡桑德拉新来的。我对Cassandra数据库进行了一些研究和测试，并提出了一些问题：

浏览 0提问于2015-12-10得票数 2

回答已采纳

2回答

超过memtable_cleanup_threshold时卡桑德拉阻塞写入的处理

scala、cassandra、spark-streaming、cassandra-3.0

我的spark应用程序从kafka获取数据并不断插入到Cassandra中，在特定时间后挂起，我已经分析过，在nodetool compactionstats中有许多挂起的任务。: 1.0 Dropped Mutations: 359 更改压实策略后

浏览 1提问于2019-02-13得票数 0

1回答

如何并行执行Spark而不重新分区

apache-spark、parallel-processing、apache-spark-sql、stanford-nlp、user-defined-functions

pmid AS id LIMIT 15000000根据parquets的数量，我将DataFrame重新划分为spark实问题刚才发生了什么？我认为UDF在Dataframe上会在默认情况下并行运行。如果partions/任务的数量多于或少于核心的总数，但至少在默认的200个分区/任务上并行，则可以进行重新分区。(简单的UDF当您将一种类型的列从int转换到bigint时，可能是不可见的，但是当您执行NLP时，它确实是可

浏览 2提问于2017-07-17得票数 4

回答已采纳

点击加载更多