Apache Spark不断从单个url下载数据_spark-scala:从特定列下载URL列表_从blob url下载数据 - 腾讯云开发者社区

apache-spark、spark-structured-streaming

有返回CSV数据的url。此url的实际数据每10分钟更新一次。我是否需要通过这个url手动下载数据到文件中，然后通过Apache Spark加载这个文件，或者例如，我可以将Spark指向这个url，Spark会不时地通过这个url自动重新下载数据并处理它？例如，是否可以使用Spark Structured S

浏览 7提问于2020-04-09得票数 0

1回答

使用jdbc从Spark 2.3.1 Scala 2.11.8连接到Vertica

scala、apache-spark、jdbc、apache-spark-sql、vertica

在Vertica网站上：当我点击链接时，它会带我到登录页面，在我传递日志后，在顶部弹出一个黄色的框，并说我没有查看下载的权限。我尝试了另一种方式，这次是从Vertica的下载页面下载。).option("url", url) .option("dbtab

浏览 1提问于2018-09-22得票数 0

回答已采纳

3回答

将大型Spark Dataframe保存为S3中的单个json文件

apache-spark、dataframe、apache-spark-sql、pyspark

我试图在亚马逊S3中将一个Spark DataFrame (超过20G)保存到一个json文件中，我保存数据帧的代码如下所示：但是我从S3得到了一个错误“你建议的上传超过了最大允许的大小”，我知道亚马逊允许的最大文件大小是5 5GB。可以和Spark一起使用S3分块上传吗？或者有另一种方法解决这个问题？顺便说一句，我需要的<

浏览 0提问于2015-04-28得票数 19

回答已采纳

1回答

无法使用火花连接器从GreenPlum读取

apache-spark、pyspark、greenplum

我正在尝试使用GreenPlum-Spark连接器从Greenplum读取数据。我使用的是从https://network.pivotal.io/products/pivotal-gpdb/下载的jar greenplum-spark_2.11-1.5.0.jar 我正在尝试从spark-shell= Map( "url" -> "jdb

浏览 18提问于2020-03-21得票数 0

1回答

到databricks服务器的JDBC连接在JMeter中失败

jmeter、sql

我在Java代码中使用JDBC连接到数据块服务器。在<em

浏览 0提问于2022-02-01得票数 0

2回答

PySpark HBase/Phoenix集成

apache-spark、pyspark、phoenix

我应该把菲尼克斯的数据读到pyspark里。编辑:我使用的是火花HBase转换器：port="2181"keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples

浏览 5提问于2015-09-15得票数 0

1回答

观点:从Spark streaming或结构化streaming任务中查询数据库

apache-spark、spark-streaming、spark-structured-streaming、spark-streaming-kafka

我们有一个Spark streaming用例，其中我们需要从摄取的事件(在Kafka中)计算一些指标，但计算需要额外的元数据，而这些元数据并不存在于事件中。我能想到的最明显的设计模式是从spark executor任务对元数据表(在master DB上)进行点查询，并在每个事件的处理过程中使用这些元数据信息。当运行Spark/hadoop的域/环境与存储所有元数据的主数据库的域隔离时，第二个场景更

浏览 6提问于2019-10-26得票数 0

1回答

激发JDBC来读取和写入Hive

apache-spark、hadoop、jdbc、hive

我正在尝试开发一个通用的实现来使用Spark来支持从各种符合JDBC的数据库(如PostgreSQL、MySQL、Hive等)读取/写入数据。 .format("jdbc") .option:2101)

浏览 6提问于2019-11-12得票数 0

1回答

在Eclipse上构建Apache Spark的依赖项

java、eclipse、maven、apache-spark

我想为Apache Spark项目使用eclipse，但构建依赖项似乎不起作用。我不断地得到按照Apache spark站点上的说明，我正在运行CDH5集群。xsd">

浏览 1提问于2014-10-24得票数 1

2回答

大师必须从纱线开始，火花

scala、hadoop、apache-spark、sbt

beyhan@beyhan:~/spark-1.2.0-bin-hadoop2.4$ /home/beyhan/spark-1.2.0-bin-hadoop2.4/bin/spark-submit --master ego-client --class org.apache.spark.examples.SparkPi /home/beyhan/spark-1.2.0-bin-hadoop2.4&#

浏览 6提问于2015-10-15得票数 3

回答已采纳

2回答

数据源io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。

scala、apache-kafka、spark-streaming、greenplum

我试图读取卡夫卡的数据，并将其上传到格林梅利的数据库使用火花。我使用的是格林梅-火花连接器，但我正在获取数据源，io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体数据？我曾尝试将数据源命名为“绿梅”，并将"io.pivotal.greenplum.spark.GreenplumRelationProvider“转换为.format(”数据源“) val

浏览 0提问于2019-04-04得票数 0

回答已采纳

1回答

从Spark中通过JDBC提取表数据时的PostgreSQL错误

postgresql、jdbc、pyspark、hawq

我让连接正常工作，但两天后，从表中提取数据出现了问题。星火的配置没什么改变..。(url=db_url, dbtable=db_table).load()其中的指纹： |-- product_no: integer (nullableorg.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) at org.apache.spark

浏览 6提问于2015-09-24得票数 1

回答已采纳

12回答

java.lang.NoClassDefFoundError: org/apache/火星/日志记录

java、maven、apache-spark、cassandra、spark-cassandra-connector

import com.datastax.spark.connector.japi.CassandraStreamingJavaUtil;import org.apache.spark.api.java.JavaSparkContext;importorg.apache.spark</e

浏览 18提问于2016-10-27得票数 11

回答已采纳

1回答

IntelliJ Idea 14.1中用于火花1.4.1的winutils二进制文件

scala、maven、intellij-idea、apache-spark

java.io.IOException: Could not locate executable null\bin\winutils.exe in the `Hadoop binaries.` <artifactId>apache</artifactId> </parent> <groupId>org.apache.spa

浏览 2提问于2015-08-27得票数 0

回答已采纳

1回答

Spark方法在java.lang.NoSuchMethodError中失败

scala、apache-spark、apache-spark-sql

$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121) at org.apache.spark.deploy.SparkSu

浏览 0提问于2016-09-14得票数 1

2回答

在scala中创建自定义生产者时出错

kafka-producer-api

我已经使用scala为Kafka中的自定义生产者写了一个小代码，它给出了下面的错误。我已经附加在代码部分的代码。我附上了一些代码作为参考。Message: <console>:61: error: not found: type KafkaProducer ^val

浏览 1提问于2019-03-28得票数 0

1回答

如何使用Spark-Phoenix连接在多个表上运行连接查询？

java、apache-spark、hbase、apache-spark-sql、phoenix

我想从spark连接到apache phoenix并运行一个join sql查询。根据Phoenix官网的建议，他们给出了一个如何从spark连接到phoenix的示例，但在配置中使用了单个phoenix表名。如下例所示：map.put("zkUrl", ZOOKEEPER_URL); map.put("table", "TAB

浏览 17提问于2018-01-19得票数 0

1回答

星星之火sql SQLContext

sql、sql-server、scala、apache-spark

我试图通过SQLContext.sql在Spark应用程序中从MSSQL数据库中选择数据。连接可以工作，但我无法从表中选择数据，因为它总是在表名上失败。找到 // https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11 libraryDependencies+= &qu

浏览 0提问于2017-07-13得票数 1

回答已采纳

1回答

安装带有Apache的蜂巢

hadoop、apache-spark、hive、pyspark、apache-spark-sql

) at org.apache.spark.util.UtilsgetCurrentUserName$1.apply(Utils.scala:2162) at org.apache.spark.util

浏览 3提问于2016-01-06得票数 0

回答已采纳

1回答

从PySpark查询远程配置单元元存储区

apache-spark、pyspark、hive

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。driver = "org.apache.hive.jdbc.HiveDriver" spark = SparkSession \ .appName("Python Spark SQL Hive integration example") \

浏览 14提问于2020-09-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云