如何在Spark中使用ASCII函数

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

3回答

通过命令行的Spark-Submit不强制UTF-8编码

、、、、

当我使用spark的Java API从IDE运行我的Spark作业时，我得到了所需的编码格式(UTF-8)的输出。但是，如果我从命令行启动“spark-submit”方法，输出就会错过编码。当通过命令行界面使用时，有没有办法强制编码为“spark-submit”。您的帮助我们将不胜感激。谢谢。

浏览 46提问于2016-07-28得票数 1

回答已采纳

3回答

火花放电数据柱中的非ascii和特殊字符的去除

、、、

我从csv文件中读取数据，csv文件有大约50列，很少有列(4到5)包含非ASCII字符和特殊字符的文本数据。df = spark.read.csv(path, header=True, schema=availSchema) 我试图删除所有的非阿西尼字符和特殊字符，只保留英文字符，我试着这样做如下。df = df['textcolumn'].str.encode('ascii', 'ignore').str.decode('ascii

浏览 11提问于2020-01-28得票数 4

回答已采纳

1回答

在配置单元中查找ASCII值的总和

、、、

我是Spark and Hive的新人。我想计算Hive Table中"name“列的ASCII值的总和。所以在Hive中，它有一个内置的ascii()函数，但是它只返回第一个字符的值。Hive是否提供循环函数来迭代名称中的所有字符？

浏览 0提问于2015-10-26得票数 0

2回答

如何在R包函数中使用非ASCII符号(例如an )？

、、、

在我的一个R包中有一个简单的函数，其中一个参数是symbol = "£"}* checking R files for non-ASCIIWARNING Found the following files with non-AS

浏览 2提问于2012-07-12得票数 16

回答已采纳

1回答

如何在Spark* Streaming映射函数中广播变量？*

、、

但是，目前Spark Streaming不支持带有检查点的广播变量。官方指南提供了一个解决方案：。但是，此解决方案只能用于foreachRDD函数。现在，我希望在映射函数(如flatMapToPair)中使用需要以这种方式广播的大型或不可序列化的变量(如KafkaProducer)，但由于没有可见的RDD变量，因此无法检索Spark上下文来广播延迟求值的变量如果我使用初始上下文来创建DStreams，或者使用从DStreams检索到

浏览 1提问于2016-07-15得票数 0

1回答

在Python代码中获取Azure数据砖块的实例

、

我正在开发一个python包，它将部署到databricks集群中。我们经常需要引用python代码中的"spark“和"dbutils”对象。我们可以使用“星星之火”(如spark.sql())在笔记本中轻松地访问这些对象。如何在包中的python代码中获得spark实例？

浏览 0提问于2019-03-22得票数 1

回答已采纳

1回答

如何使用火花sql中的dataframe操作调用函数？

、、

我有sql -基本上连接了两个表，并获得了结果accomm_sk，如果accomm_sk值为空，那么如果没有得到结果，那么sql将在第三个表中得到调用查找。如何在星火sql中使用此函数，因为spark不允许注册为UDF？accommodation_sk from staging.accomm_dim where accomm_hash="{}"'.format(localHash) accommodationSk_Df=spark.sql_gatew

浏览 0提问于2018-12-28得票数 0

2回答

在星火scala数据格式的列中使用非英语字符

、、、、

下面是我试图加载到dataframe文件的一部分：小电子邮件无小a 当我将这个文件加载到一个数据文件中时，所有的非英语字符都会被转换成框。val nonEnglishDF = spark.read.format("com.databricks.spark.csv").option("delimiter","|").option("header

浏览 3提问于2020-10-08得票数 0

2回答

Hadoop纱簇性能调整

、、

我有很多未使用的内存和内存。火花吐露：- spark.executor.memory = 5g纱线吐露：- yarn.scheduler.maximum-allocation-mb = 31744 在节点3& 5上，为什么要

浏览 0提问于2015-11-09得票数 0

1回答

如何根据emu8086中的输入打印ASCII值

、

我使用EMU8086我想打印ASCII值的字符串，如"ABC“输出是："65”"66“"67”。请指导我如何在用户输入值时打印字符串的ascii值。我也用ascii表打印字符，但我不知道如何打印字符的ascii值

浏览 0提问于2020-06-15得票数 0

1回答

来自spark* dataframe的块topandas*

、、

我有一个包含1000万条记录和150列的spark数据帧。我正在尝试将其转换为熊猫DF。=201806""") 160 # ps[["pol_nbr", 2032 2033

浏览 0提问于2018-10-26得票数 6

2回答

在独立集群模式下带有Apache火花的Docker容器

、、

因此，容器将终止，因为前景中不再运行任何进程。如果第一种方法是不可能的/可行的/无论如何，什么是保持容器“存活”的首选(即最佳实践)解决方案(我真的不想使用无限循环和睡眠命令)？

浏览 1提问于2016-09-23得票数 10

回答已采纳

1回答

如何使用Apache (火花放电)的BigQuery进行身份验证？

、、

我已经为我的bigquery项目创建了一个client id和client secret，但是我不知道如何使用它们来成功地将数据从pyspark脚本保存到bigquery表中。是否有一种方法可以使用上的保存选项连接到BigQuery？) at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86) at org.apache.spark.sql:151) at org.apache.<e

浏览 6提问于2019-12-06得票数 4

回答已采纳

1回答

Apache光束上的Spark.ml

是否可以在束管道中使用星火库(如Spark.ml )？根据我的理解，您将用“Beam语法”编写管道，并让Beam使用spark作为流道在火花上执行它。因此，我看不出如何在beam中使用spark.ml。非常感谢，乔纳森

浏览 1提问于2018-11-27得票数 1

回答已采纳

3回答

如何在apache spark中执行词干分析？

、、、

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

2回答

如何检查Spark数据帧结构数组是否包含特定值

、

我有一个具有以下模式的数据框架root |

浏览 0提问于2019-09-06得票数 7

回答已采纳

17回答

在Apache Spark* DataFrame中连接列*

、、、

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云