从本地计算机读取数据时出现(PySpark)问题_从串行端口读取数据时出现问题_尝试从本地存储检索数据时出现问题 - 腾讯云开发者社区

apache-spark、pyspark

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError用法: java.io.IOException:方案没有FileSystem : null '‘ E

浏览 26提问于2020-10-28得票数 0

1回答

将PySpark从停靠容器连接到本地计算机的配置单元表

docker、hive、pyspark

我已经使用Pyspark构建了一个决策树模型，并希望使用docker容器部署该模型。我使用的是spark 1.6.0。数据存储在Hive表中，并位于我的本地计算机中。有没有一种方法可以将PySpark从我的停靠容器连接到我本地计算机中的配置单元表？我的配置单元表中的数据可能会更新，所以我不想挂载驱动器，或者只是将文件夹从本地复制到我的容器中，而是在PySpark和配置单元表之间建立

浏览 7提问于2018-12-30得票数 0

1回答

读取csv文件时中绝对URI中的相对路径

python、pandas、pyspark、databricks

我刚接触过Pyspark，并尝试使用Databricks中的数据库。我试图使用以下语法从本地计算机读取csv文件： df = spark.read.format("csv").option("header", True).load("C:\\Users\\***\\Desktopjava.net.URISyntaxException: Relative path in absolute URI: C:%5CUsers%5C****.10%

浏览 13提问于2021-07-06得票数 1

回答已采纳

2回答

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

apache-spark、ipython、hdfs、ipython-notebook

我正在本地计算机上运行ipython notebook，并希望创建到远程Spark服务器i.p的连接。然后从remote server上存在的hdfs文件夹中读取数据。如何从本地ipython notebook创建到Spark服务器的远程连接

浏览 3提问于2015-11-24得票数 6

2回答

如何在Google中读取.yaml文件中的数据

python-3.x、dictionary、yaml、google-colaboratory

我正在尝试从本地计算机上的.yaml文件中读取数据。但是，当我导入文件并打印数据时，它将以一行的形式出现。供输出参考的屏幕截图如下：然而，通过使用木星笔记本，我成功地读取了所需的字典格式的数据。供参考的截图在这里如何以Colab逐行字典格式读取数据？

浏览 2提问于2020-04-05得票数 0

回答已采纳

1回答

在Azure Databricks中读取Twitter流数据

python、pyspark、spark-streaming、databricks、azure-databricks

我想使用pyspark读取Azure Databricks中的流Twitter数据，但我不知道如何做到这一点？我在互联网上找到了几个链接，但它们都需要我的本地计算机的主机I或IP地址，但我想在云上做到这一点，有什么方法或其他代码可以做到吗？sentiment-analysis-on-streaming-twitter-data-using-spark-structured-streaming-python-fc873684bfe3链接显示了如何在本地机器上读取

浏览 15提问于2021-07-18得票数 0

1回答

我可以在我的本地机器上对hadoop运行python上的spark命令吗？

hadoop、pyspark、cloudera

我想在本地机器上运行下面的代码。from pyspark import SparkContext def quiet_logs( sc ):我的目的是将数据从本地计算机加载到hadoop？提前感谢

浏览 13提问于2020-06-15得票数 0

1回答

从本地连接到客户端cassandra

amazon-web-services、apache-spark、cassandra、pyspark

我正在尝试从cassandra获取已安装在AWS ec2中的数据。当我通过pyspark运行以下命令时，我能够从AWS读取，但是当我通过spark-submit提交相同的python文件时，我从本地获取rdd。你能给我推荐一下我缺少配置的地方吗？from pyspark import SparkConf, SparkContext from pyspark.sql.session import Sp

浏览 0提问于2017-04-14得票数 2

1回答

从本地计算机读取文件并使用google数据流写入BigQuery或google存储。

google-bigquery、google-cloud-storage、google-cloud-dataflow

是否有方法从本地计算机读取csv文件并使用google数据流将其写入大查询或存储？如果它存在，应该使用哪个跑步者？所有google数据流示例要么从云中读取，要么写入云存储或大查询。我使用DirectPipelineRunner从本地计算机读取和写入本地计算机。

浏览 3提问于2016-08-04得票数 1

回答已采纳

1回答

如何在Python中读取/迭代数据

python-2.7、spark-streaming、data-stream

我在计算机的端口9999上创建了一个流。我得在上面实现DGIM算法。然而，我无法逐个读取数据流中的位。下面是我的代码：from pyspark.streaming import StreamingContextssc = StreamingContext(sc, 1)

浏览 1提问于2018-07-18得票数 0

2回答

我们需要启动spark才能运行pyspark吗？

apache-spark、pyspark

这可能是一个新手问题。这是我的场景。我已经在我的机器上安装了一个spark。我还没有启动它(使用sbin/ start -all.sh或sbin文件夹中的任何其他脚本)。然后我打开pyspark (使用bin/pyspark)，它启动时没有任何错误。问题1:执行pyspark/ spark -shell程序不需要spark运行吗？问题2:还是只有Spark-submit需要spark才能启动？如果我漏掉了什么，请澄清一下。

浏览 271提问于2019-05-06得票数 4

2回答

如何判断spark会话是否能够以数据格式保存数据大小？

apache-spark

打算使用pyspark (在本地模式下运行)从Oracle DB中读取数据，并将本地存储为parquet。是否有一种方法可以判断火花会话数据是否能够保存来自查询的数据量(这将是整个表，即。是否有共同的解决方案，如果数据将无法适应一个数据？ *看到了一个类似的问题，但对评论中的讨论有点困惑

浏览 2提问于2019-10-30得票数 1

回答已采纳

1回答

本地数据库弹出配置远程调试防火墙对话框

sql-server、ssms

从几天前开始，即使当我尝试在本地数据库上调试时，也会弹出配置远程调试的对话框。这在我的本地机器上从来没有发生过。每当我尝试调试本地脚本或存储的procdure时，它都会打开。在某些脚本上，我可以单击对话框上的X，本地调试将继续进行。但是在其他一些更复杂的脚本上，它不会调试所有的脚本吗？我必须按照指定的方式配置调试器吗？

浏览 3提问于2013-08-16得票数 1

2回答

LocalStorage处理--如何验证用户是否使用不同的浏览器或其他机器进行调制？

javascript、html、local-storage

这是一个例子 ( 1)用户(在家中的个人计算机上)试图修改他的帖子，为此，我们以可编辑的模式(编辑自己的帖子)将已经保存的内容从数据库加载到浏览器。他对他的帖子做了修改，我们把他的数据存储在LocalStorage中。修改后，他关闭了浏览器(没有将数据保存到数据库中)。2)来自不同计算机(可能来自办公计算机)或来自不同浏览器的同一个用户打开上述帖子进行编辑时，他看到了自己的旧内容(因为他没有保存他的帖子)。他做了一些修改，保存了内容。

浏览 0提问于2014-07-07得票数 0

回答已采纳

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的

浏览 0提问于2016-07-27得票数 1

2回答

如何将数据以数据文件的形式读入google google

python、pandas、google-colaboratory

我正在做我的第一个编码项目，想知道如何将数据文件读取到Google coding中。指令要求我们以df格式读取数据。我已经找到了处理CSV文件的方法，但这是一个非常旧的数据文件，它不是CSV。感谢您提供的任何信息。

浏览 0提问于2021-03-04得票数 0

1回答

SSMS 2014备份和恢复问题

sql-server、ssms-2014

我从一台同样运行SSMS 2014的Windows 7计算机连接到那台计算机。当我执行备份并将.bak文件从服务器复制到本地计算机并尝试运行恢复时，只要我选择该文件作为源设备，然后单击"Contents“，它就会生成一个错误，显示"Object cannot be cast from另一个方向是在我的本地机器上创建一个备份，然后通过RDC将其复制到服务器并执行恢复，没有任何问题。但是，不管数据库是什么，将其

浏览 2提问于2016-06-22得票数 0

1回答

磁盘缓冲区:为什么它甚至存在于许多磁盘控制器中？

raid、filesystems、hard-drive、buffer

当您请求磁盘数据时，通常首先将其传输到磁盘控制器中的磁盘缓冲区，然后将其发送到RAM (从而存储在内存中)。我只是想知道，首先拥有缓冲区(这实际上是额外的一步)有什么好处。

浏览 0提问于2011-10-27得票数 -3

回答已采纳

3回答

J2EE:从web服务器访问文件。

java

我正在尝试开发一个从本地计算机读取文件的J2EE web应用程序。用户将能够输入文件所在的路径，当单击按钮时，文件将被读取并应上载数据库。当我在本地测试它时，这个功能工作得很好，但是当我将代码移动到web服务器时，它无法找到文件。这是因为应用程序试图在服务器而不是本地计算机上查找该文件。有没有人能告诉我有没有办法从本地机器上读取

浏览 1提问于2011-10-19得票数 0

1回答

如何使用Pyspark从xml文件创建子数据帧？

pyspark

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子数据帧

浏览 11提问于2019-03-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云