如何并行化python/pyspark中的for循环(潜在地跨Amazon服务器上的多个节点运行)？ - 腾讯云开发者社区

python、azure、apache-spark、databricks

我正在使用Spark运行一个脚本，它在我的计算机和使用所有可用内核(大约6000个进程)的Google VM上都运行得很好。然而，当我尝试在Azure Databricks上运行它时，使用一个最少2个工作进程和最多25个4核的集群，并且运行DB9.0，它只是一个接一个地运行，而没有并行化。除了在任何虚拟机中运行Spark，在Databricks中运行Spark是否需要任何额外的设置？下面是我用来调试并行化问题的测试脚本(集群负载小于10%)： import pandas as pd import os import numpy as np import datetime from py

浏览 29提问于2021-10-08得票数 2

2回答

Selenium远程Webdriver服务器类似于Hudson CI吗？

selenium、grid、webdriver、selenium-grid

现在我正在使用Hudson CI在xvnc中启动浏览器，并通过Webdriver (2.0之前)运行我的测试。我应该使用Selenium远程webdriver吗？这比hudson ci更有效率吗？我想在Amazon....are上运行我的测试，有没有selenium remote webdriver服务器或Selenium Grid插件可以与亚马逊集成？我应该选择Grid还是remotedriver服务器？我的最终目标是能够在Amazon上并行启动多个Selenium测试，并能够快速扩展和缩小。现在我每月支付100美元购买在it....but上有hudson CI的服务器，我从来没有使

浏览 0提问于2011-05-08得票数 0

回答已采纳

2回答

Dataproc未使用pyspark并行处理大数据

apache-spark、pyspark、dataproc

我在GCP中启动了一个DataProc集群，有一个主节点和3个工作节点。每个节点有8个vCPU和30G内存。我开发了一个pyspark代码，它从GCS读取一个csv文件。csv文件的大小约为30G。 df_raw = ( spark .read .schema(schema) .option('header', 'true') .option('quote', '"') .option('multiline',

浏览 4提问于2021-05-03得票数 0

3回答

未找到Amazon EMR Pyspark模块

python、amazon-web-services、pyspark、amazon-emr

我创建了一个Amazon EMR集群，其中已经包含Spark。当我从终端运行pyspark时，当我ssh进入我的集群时，它进入pyspark终端。我使用scp上传了一个文件，当我尝试使用python FileName.py运行它时，我得到了一个导入错误： from pyspark import SparkContext ImportError: No module named pyspark 我该如何解决这个问题？

浏览 0提问于2015-08-13得票数 11

2回答

Amazon、Boto和Python:在Amazon EC2上获取和运行脚本

python、amazon-s3、amazon-ec2、boto

我正在亚马逊EC2上运行一组python脚本。这个建议使用Amazon来管理队列。从本指南中，我了解了如何引导EC2实例并将作业从我的计算机发送到队列，但我不知道如何设置EC2实例，使其在从队列中获取EC2脚本之后运行，然后将结果保存到Amazon。如何获取、在EC2服务器上运行并将结果保存到python脚本的S3中？

浏览 3提问于2013-10-18得票数 3

回答已采纳

2回答

如何允许火花放电在emr集群上运行代码

apache-spark、pyspark、port、devops、amazon-emr

我们使用python和pyspark在星火集群上运行简单的代码。 from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName('appName').setMaster('spark://clusterip:7077') sc = SparkContext(conf=conf) rdd = sc.parallelize([1, 2, 3, 4]) rdd.map(lambda x: x**2).collect() 当我们在本地和dockers中设置星火集群时，它就可以工作了。

浏览 3提问于2019-12-11得票数 3

1回答

在Spark UDF函数中使用Sagemaker predictor

tensorflow、pyspark、amazon-sagemaker

我正在尝试从Python Spark作业中对部署在SageMaker上的Tensorflow模型运行推断。我正在运行一个(Databricks) notebook，它具有以下单元： def call_predict(): batch_size = 1 data = [[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.2]] tensor_proto = tf.make_tensor_proto(values=np.asarray(data), shape=[batch_size, len(data[0])], dtype=tf.

浏览 43提问于2020-01-17得票数 1

回答已采纳

1回答

有没有一个与Scala的Seq.fill()等同的高效的PySpark/Python？

apache-spark、pyspark、functional-programming

我正在尝试使用PySpark创建随机生成的大型数据。下面的Scala代码基本上就是我想要的，但是我找不到一种在PySpark中复制seq.fill()的有效方法。 def randomStringGen(length: Int) = scala.util.Random.alphanumeric.take(length).mkString val df = sparkContext.parallelize(Seq.fill(4000){(randomStringGen(4), randomStringGen(4), randomStringGen(6))}, 10).toDF("col

浏览 0提问于2021-08-06得票数 1

2回答

如何使用Apache在AWS集群上运行代码？

python、amazon-web-services、apache-spark、master-slave

我编写了一个python代码，将每个csv文件的第一列中的所有数字相加，如下所示： import os, sys, inspect, csv ### Current directory path. curr_dir = os.path.split(inspect.getfile(inspect.currentframe()))[0] ### Setup the environment variables spark_home_dir = os.path.realpath(os.path.abspath(os.path.join(curr_dir, "../spark")))

浏览 5提问于2015-07-16得票数 1

回答已采纳

5回答

我如何安装独立脚本中使用的火花放电？

python、apache-spark

我正在尝试在Python中使用Spark。我从页面为Hadoop 2二进制发行版安装了Spark1.0.2。我可以在Python交互模式下运行快速启动示例，但现在我想编写一个使用Spark的独立Python脚本。说只导入pyspark，但这不起作用，因为它不在我的PYTHONPATH上。我可以运行bin/pyspark并看到模块安装在SPARK_DIR/python/pyspark下面。我可以手动将它添加到我的PYTHONPATH环境变量中，但是我想知道首选的自动化方法。为独立脚本添加pyspark支持的最佳方法是什么？在Spark目录下，我没有看到任何一个setup.py。如何为依赖于S

浏览 8提问于2014-08-08得票数 37

回答已采纳

1回答

如何分配python解释器火花工作人员使用？

python-2.7、apache-spark、pyspark

如何分配python解释器火花工作人员使用？我尝试了几种方法，例如: 1)设置env Vars export PYSPARK_DRIVER_PYTHON=/python_path/bin/python export PYSPARK_PYTHON=/python_path/bin/python 不是工作。我确信PYSPARK_DRIVER_PYTHON PYSPARK_PYTHON env设置成功使用： env | grep PYSPARK_PYTHON 我想用火药 /python_path/bin/python 作为启动的python解释器但是，员工开始使用以下命令： python -m

浏览 0提问于2018-02-12得票数 1

回答已采纳

3回答

当我并行处理一个大列表时，触发上下文关闭

apache-spark

当我从Spark中的列表创建RDD时，当我尝试对其执行RDD操作时，它通常会导致Spark上下文关闭。下面是导致崩溃的代码，堆栈跟踪在下面。任何的指导都非常感谢！ import sys import numpy as np import pyspark SC = pyspark.SparkContext("local", "Crash app") for i in xrange(10): randArray = np.random.rand(10**i) randRdd = SC.parallelize(randArray)

浏览 5提问于2015-04-23得票数 3

回答已采纳

1回答

PySpark代码是在JVM还是中运行的？

python、apache-spark、pyspark

当我使用python3 t1.py运行以下名为t1.py的脚本时，我想了解在这个引擎盖下面发生了什么。具体来说，我有以下问题：什么样的代码被提交到火花工作节点？是python代码还是提交给spark节点的等效Java代码？是还原中作为UDF处理的添加操作，因此运行在工作者节点上的python子进程中？如果添加操作运行在工人节点上的python子进程中，那么worker JVM是否为添加的分区中的每个数字与python子进程通信？如果是这样的话，就意味着大量的开销。 #!/home/python3/venv/bin/python3 #this file is named t1.

浏览 0提问于2020-05-15得票数 9

回答已采纳

1回答

pyspark.sql模块错误: worker中的Pythonversion2.7与驱动程序3.7中的版本不同，PySpark不能在不同的次要版本下运行

pyspark、jupyter、pyspark-sql

df = spark.read.parquet('xxx') tmstmp = df['timestamp'] spark.conf.set("spark.sql.session.timeZone", "Singapore") time_df = spark.createDataFrame([('tmstmp',)], ['unix_time']) time_df.select(from_unixtime('unix_time').alias('ts')).col

浏览 1提问于2019-05-30得票数 1

2回答

Apache :当增加内核数量时无法提高执行时间

shell、apache-spark、time、pyspark

我是星火的新手。我正在跟踪这个 (法语)。这样做的目的是调用一个名为wordcount.py的脚本(如下所示)来计算大型文本文件中的字数。作者建议从互联网上抓取Iliad，并将其连接到一个名为iliad100.txt的文件中。 wget http://classics.mit.edu/Homer/iliad.mb.txt for i in {1..100}; do cat iliad.mb.txt >> iliad100.txt; done 当使用4核(local[4])而不是单个核心(local[1])在本地机器上运行脚本时，它们观察到执行时间减少了大约30%。但是，无论我是否

浏览 3提问于2020-07-29得票数 1

回答已采纳

1回答

Dataproc主节点和工作节点之间的不同Python版本

pyspark、google-cloud-dataproc

我用Anaconda作为可选组件创建了一个dataproc集群，并创建了一个虚拟env。在那里面。现在，当在主节点上运行pyspark py文件时，我得到了这个错误- 例外情况: worker中的Python版本与驱动程序3.6中的版本不同，PySpark无法运行不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON。我需要虚拟env中的RDKit包。并安装了python 3x版本。下面的命令在我的主节点上，然后python版本发生变化。 conda create -n my-venv -c rdkit rdkit

浏览 4提问于2020-01-30得票数 3

1回答

如何让PySpark/spark在我的电脑上同时在python2和3上运行？

python、python-2.7、apache-spark、pyspark、python-3.6

我为python2.7准备了Spark/Pyspark。我的电脑上也有python 3.6。如何让它的spark/pyspark在python3.6上自动运行？ Spark/pyspark目前只能在我的电脑的2.7上运行

浏览 6提问于2018-02-04得票数 0

1回答

如何在笔记本电脑上配置ipython notebook以指向远程服务器执行

ipython、pyspark、ipython-parallel

我之前尝试将Pycharm从笔记本电脑连接到远程服务器，但由于tcp/ip问题(老实说，我不太了解这个问题，目前仍在与之斗争)，我没有看到任何希望，因此我希望使用ipython作为替代方案问:如何在笔记本电脑上配置ipython以指向远程CentOS6服务器以进行代码处理和执行用例:我想用我的笔记本电脑(使用Win7专业版)通过iPython连接到CentOS 6.4主服务器。目标:在笔记本电脑上用iPython编写代码，然后将作业发送到服务器，服务器将进行处理，然后将结果返回到笔记本电脑或任何其他可视化应用编程接口。服务器和3个名称节点已经安装了pyspark，我已经检查了pyspa

浏览 18提问于2015-08-03得票数 0

1回答

为什么Spark应用程序将包含多个csv文件的DataFrame保存到S3存储桶

amazon-web-services、apache-spark、amazon-s3、amazon-emr

嗨，我是Spark和Amazon EMR集群的新手。我试图编写一个可以在Amazon EMR集群上运行的演示spark应用程序。当代码在Zeppelin notebook上运行时，它会返回输出，我认为输出会保存为Amazon EMR集群上的单个文件，如下所示： %pyspark spark.conf.set('spark.sql.repl.eagerEval.enabled', True) if type(df.c) == type(upper(df.c)) == type(df.c.isNull()): df_new = df.withColumn('up

浏览 31提问于2021-04-16得票数 0

回答已采纳

1回答

亚马逊电子邮件垃圾邮件应用程序的用户dr.who？

hadoop、hadoop-yarn、amazon-emr

我正在使用python (pyspark)处理spark进程。我创建了一个amazon EMR集群来运行我的spark脚本，但是当集群刚刚创建时，很多进程都是自己启动的(？)，当我检查集群UI时：因此，当我尝试使用自己脚本时，它们会进入无休止的队列，有时会被接受，但永远不会进入运行状态。即使在亚马逊论坛上，我也找不到任何关于这个问题的信息，所以我很高兴得到任何建议。提前谢谢。

浏览 1提问于2018-09-13得票数 0

1回答

Redshift的COPY命令可以复制多个表吗？

mysql、postgresql、amazon-web-services、amazon-redshift、data-migration

我希望将一些MySQL数据库移到Amazon的云上。目前，我正在创建一个Python脚本，将表转换为CSV，对它们进行加密，将它们放入S3中，然后将数据复制到Redshift中。但是，按照设置的方式，我必须一次只复制一个表。我已经读过，您可以将数据分割成多个文件并并行上传，但是我相信这仍然仅用于将数据加载到一个表中。有办法一次在多个表上使用副本吗？从每个表中逐个复制数据似乎效率很低。

浏览 0提问于2018-06-21得票数 1

2回答

与其他R包并行使用R

r、parallel-processing、multicore

我正在使用R中的LQMM软件包进行非常耗时的分析。我将模型设置为星期四开始运行，现在是星期一，现在仍在运行。我对模型本身很有信心(作为标准MLM测试)，我对我的LQMM代码很有信心(使用相同的数据集运行了其他几个非常相似的LQMM，它们都花了一天时间运行)。但是，我真的很想弄清楚如何让它更快地运行，如果可能的话，使用我可以访问的机器的并行处理功能(注意，所有这些都是基于Microsoft的)。我已经阅读了几个关于使用并行的教程，但我还没有找到一个说明如何与其他R packages....am i一起使用并行包的教程，或者说不可能？下面是我使用运行的代码： install.packages(

浏览 1提问于2015-05-04得票数 5

2回答

如何在pyspark中设置分割器和减速器的数量

python、apache-spark、pyspark、emr

我正尝试在amazon EMR实例上运行pyspark以从dynamodb读取数据，我想知道如何在我的代码中设置拆分和工作的数量？我按照下面两篇文档中的说明使用了下面的代码，该代码当前连接到dynamoDB并读取数据。和 from pyspark.context import SparkContext sc = SparkContext.getOrCreate() conf = {"dynamodb.servicename": "dynamodb", "dynamodb.input.tableName": "Table1&

浏览 2提问于2017-12-03得票数 0

1回答

用Pyspark并行化HTTP请求

python、apache-spark、pyspark

我正在使用pyspark进行一些数据转换:如下所示： df_systems_tree_users = sqlContext.read.format("jdbc") \ .option("dbtable", "(select ID as SYSTEMUID,M_EXTERNAL_ID,metric,DATATRANSMISSIONFREQUENCY,MODEL,BRAND,BUILDING FROM SYSTEM INNER JOIN SENSOR ON SYSTEM.ID=SENSOR.SYSTEMID WHERE LP

浏览 0提问于2017-08-31得票数 3

2回答

在Ethereum或任何L2中会出现某种并行性吗？

rollups、async、concurrency、machine-learning、zksync

假设我有一长串的值： x = [1, 2, 3, ..., N] # shape [N, ] array 和一个函数 def f(x): return x ** 2 然后我会做类似的事情(类似于python的多重处理) with SmartContractPool(N) as p: p.map(f, x) x现在应该是 x = [1, 4, 9, ..., N^2]。这将是O(N)作为顺序操作，但很明显，在N个智能契约/节点上的O(1)是异步和并行地实现f的。这就要求x实际上是所有节点都可以访问的某种共享存储变量。也许这在L1上是不可能的，但是我不明白为什么在例如zk卷

浏览 0提问于2022-08-24得票数 4

1回答

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob.时出错ModuleNotFoundError:没有名为“numpy”的模块

python、machine-learning、pyspark、jupyter-notebook、data-science

有人能帮助解决这个问题吗？它没有显示名为'numpy‘的模块，但我已经在笔记本中安装并导入了它。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 223.0 failed 1 times, most recent failure: Lost task 0.0 in stage

浏览 118提问于2019-12-03得票数 0

6回答

学习如何在Python中实现MapReduce/Hadoop的起点？

python、hadoop、mapreduce

我最近开始进行数据分析，在过去的一年中我学到了很多(目前，我几乎完全使用Python)。我觉得下一步是开始在MapReduce/Hadoop中训练自己。然而，我没有受过正规的计算机科学培训，因此常常不太了解人们在撰写Hadoop时使用的术语，因此我在这里提出问题。我希望的是Hadoop的顶级概述(除非我应该使用其他东西？)也许还会推荐一些教程/教科书。例如，如果我想并行化我用Python编写的神经网络，我会从哪里开始呢？是否有一种用算法实现Hadoop的相对标准方法，或者每个解决方案都是特定于问题的？ Apache wiki页面将Hadoop描述为“在由普通硬件构建的大型集群上运行应用程序

浏览 10提问于2012-08-29得票数 13

回答已采纳

5回答

获取PySpark中可见节点数

python-2.7、apache-spark、pyspark

我在PySpark中运行了一些操作，最近在我的配置(在Amazon EMR上)中增加了节点数量。但是，即使我将节点数量增加了两倍(从4个增加到12个)，性能似乎没有变化。因此，我想看看新节点对Spark是否可见。我正在调用以下函数： sc.defaultParallelism >>>> 2 但我认为这是在告诉我分配给每个节点的任务总数，而不是Spark可以看到的节点总数。如何查看PySpark在集群中使用的节点数？

浏览 142提问于2015-02-27得票数 23

回答已采纳

1回答

如何将脚本执行委托给exasol中的不同节点？

python、sql、parallel-processing、multiprocessing、exasolution

我正在尝试向exasol中的一个表添加两百万行，其中一列应该具有递增的整数值(1 - xmio)。我无法让我的python脚本并行运行并将负载分配给集群中的不同节点。因此，这个过程需要几天的时间才能完成，这是不够的。由于CSV-Import在exasol中是并行的，我在本地创建了一个250mio行的CSV，将其压缩并上传到表中，这是迄今为止最快的方法，需要7分钟(瓶颈是我的上传速度)。其他方法： CREATE SCRIPT BIG1 (bound) AS i = 0 while i < bound do query([[insert into USE

浏览 16提问于2019-05-07得票数 0

回答已采纳

3回答

pyspark适用于python2.7，但不是3.4。

python、amazon-web-services、apache-spark、pyspark、amazon-emr

我在亚马逊的EMR集群上运行火星雨。我有一个非常简单的测试脚本，看看我是否可以使用spark submit向s3写入数据. from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://my-bucket/test.txt") sc.stop() 当我在python2.7环境中使用submit运行这个脚本时，它工作得很好。但是，当我试图在python3.4环境中运行相同的脚本时，我会得到以下的跟踪结果.

浏览 6提问于2017-01-29得票数 1

回答已采纳

1回答

天桥并行迁移

flyway

我们有许多项目运行在许多服务器上，查找一个数据库，我们正在考虑设置每个项目的天桥，以控制我们的数据库结构。但是我们担心并发迁移问题，如果某些项目在相同时间内重新部署的话。(关闭-coures，我们总是注意sql语法中的“如果存在”)。在同一数据表或其他结构上并发更改时，天桥是如何工作的？

浏览 0提问于2015-01-13得票数 14

1回答

与python re相比，为什么spark regexp_extract太慢？

python-3.x、pyspark、apache-spark-sql、re

最近我遇到一个需求，我尝试用pyspark regexp_extract更改python re，将re更改为pyspark regexp_extract背后的原因是spark更快。通过比较by pyspark和re工艺的处理速度，得出like re比by pyspark regexp_extract更快的结论。有没有什么特别的原因导致regexp_extract慢。提前感谢

浏览 21提问于2020-09-11得票数 0

1回答

如何在Python2.7中使用MPI进行并行计算？

python、parallel-processing

我写了一个python代码来进行遗传算法的优化，但是它太慢了。我想知道如何利用多个CPU在并行模式下运行相同的程序？为了更清楚，我的代码将调用另一个python代码，比如说一个接一个调用100次，我想在4个CPU之间进行分配。因此，每个CPU要处理25倍的外部python代码。从而提高了速度。如果有人能帮我解决is问题，我将不胜感激。提前感谢！

浏览 1提问于2015-01-19得票数 0

2回答

Python多线程Sqlite使用中的分段错误！

python、multithreading、sqlite

我正在开发一个在多线程程序中使用Sqlite的python代码。远程主机调用一些xmlrpc函数并创建新的线程。在新线程中运行的每个函数都使用sqlite将数据插入数据库或从数据库读取数据。我的问题是，当同时调用服务器超过5次时，服务器会因为“分段故障”而崩溃。并且输出没有提供任何其他信息。你知道是什么导致了这个问题吗？

浏览 0提问于2011-06-09得票数 0

1回答

独立模式下火花放电的连接拒绝错误

python、pyspark

星火文件在txt文件中打印出top10单词。 from pyspark import SparkContext from pyspark import SparkConf from pyspark.streaming import StreamingContext conf = SparkConf().setAppName("read text file in pyspark") sc = SparkContext(conf=conf) path_to_file = "C:/Users/Admin/Desktop/beeline_project/lorem2.txt

浏览 0提问于2020-07-26得票数 0

1回答

从插件ssh到Jenkins可以在与Jenkins本身相同的服务器上吗？

jenkins、ssh、jenkins-slave

我试图插件安装在与jenkins相同的服务器上的从服务器，以减少运行在不同VM机器上的数量。我刚开始学詹金斯的装置，只是在学习。我可以使用与从插件ssh相同的服务器吗？ Jenkins在下面给定的消息中失败，当我试图使用位于同一服务器中的从ssh插件时，应该添加它自己的键吗？如果是的话，我如何生成一个。 11/16/18 15:59:16警告:此主机的已知主机文件中目前不存在任何条目。连接将被拒绝，直到此新主机及其相关密钥被添加到已知主机文件。会很感激你的帮助。

浏览 1提问于2018-11-16得票数 0

1回答

与纯python替代方案相比，Pyspark代码的性能不够好。

python、apache-spark、pyspark

我转换了现有的代码，它在python中粘贴，下面是pyspark。 Python代码： import json import csv def main(): # create a simple JSON array with open('paytm_tweets_data_1495614657.json') as str: tweetsList = [] # change the JSON string into a JSON object jsonObject = json.load(str)

浏览 0提问于2017-06-18得票数 1

2回答

如何在远程星火库集群上运行本地Python脚本？

python、amazon-web-services、amazon-ec2、pyspark、amazon-emr

我在一个木星笔记本上运行了一个本地Python脚本，它在我的机器上运行我的本地Spark集群上的作业： sc = pyspark.SparkContext(appName="test") sqlCtx = pyspark.SQLContext(sc) 如何将此更改为连接字符串，以便在AWS中运行我的EMR集群上的作业？这是可能的，还是当SSH‘’ing进入远程集群时，我必须使用spark-submit函数？

浏览 0提问于2018-11-02得票数 0

回答已采纳

1回答

如何在AWS胶中使用火花包？

amazon-web-services、pyspark、cassandra、aws-glue、spark-cassandra-connector

我想在AWS中使用Datastax的。如果我在本地运行pyspark，我的命令看起来就像 path/to/spark-3.0.1-bin-hadoop2.7/bin/spark-submit \ --conf spark.cassandra.connection.host=XXX \ --conf spark.cassandra.auth.username=XXX \ --conf spark.cassandra.auth.password=XXX \ --packages com.datastax.spark:spark-cassandra-connector_2.12:2.5.1 \ ~/

浏览 8提问于2020-09-16得票数 2

1回答

如何用@QuerySqlFunction实现和？

gridgain、ignite

到目前为止，我们看到的涵盖@QuerySqlFunction的例子都是微不足道的。我在下面放了一个。然而，我正在寻找一个提供交叉行计算的示例/解决方案/提示，例如平均值、和、.这个是可能的吗？在本例中，函数从数组中返回值0，基本上是ARRAY_GET(x，0)的实现。我看到的所有其他例子都是相似的:1行，得到一个值，并使用它做一些事情。但是我需要能够计算分组结果的和，或者可能更多的业务逻辑。如果有人能为我提供SUM的QuerySqlFunction，我想我可以做的不仅仅是SUM。步骤1:编写函数 public class MyIgniteFunctions { @QuerySqlFunct

浏览 2提问于2015-10-13得票数 0

1回答

TensorFlow matmul会在图形处理器上并行运行吗？(或任何GPU操作。)

tensorflow

假设代码如下： w1 = tf.get_variable(...) w2 = tf.get_variable(...) x = ... y1 = tf.matmul(x, w1) y2 = tf.matmul(x, w2) session.run([y1, y2], ...) TensorFlow可能会并行运行操作(通过选项inter_op_parallelism_threads控制)。我的问题是:在这里(matmul) (并在此基础上扩展:在所有类型的GPU上)，它真的会做到这一点吗？我认为要做到这一点，它需要创建多个CUDA流，对吧？它会自动做到这一点(以及如何做到)？或者它们将在GP

浏览 1提问于2018-07-24得票数 2

2回答

如何让cython和gensim与pyspark协同工作

python、python-3.x、pyspark、cython、gensim

我正在运行一台安装了gcc的Lubuntu16.04机器。我不会让gensim与cython一起工作，因为当我训练一个doc2vec model时，它只与一个工人一起训练，速度非常慢。正如我所说的，gcc是从一开始就安装的。然后我可能犯了一个错误，在安装cython之前安装了gensim。我通过pip强制重新安装了gensim，从而纠正了这个问题。没有效果，仍然只有一个工人。这台机器被设置为spark主机，我通过pyspark与spark连接。它的工作原理是这样的，pyspark使用jupyter，jupyter使用Python3.5。通过这种方式，我可以获得到集群的jupyter接口。现

浏览 7提问于2017-02-04得票数 0

回答已采纳

2回答

在Jenkins中运行并行任务

jenkins

如何在Jenkins中实现并行？我使用Jenkins使用“使用ssh在远程主机上执行shell脚本”运行shell脚本。我想并行运行多个shell脚本，如何实现？我设置了"SSH站点“密钥，并能够与远程服务器进行通信。谢谢。

浏览 4提问于2014-04-07得票数 1

回答已采纳

1回答

如何在EMR集群中跨节点运行python代码

python、pandas、pyspark、amazon-emr

我有一个Amazon EMR集群--30个节点--我的Python代码如下所示- spark = SparkSession \ .builder \ .appName("App") \ .config(conf=sparkConf) \ .getOrCreate() def fetchCatData(cat, tableName): df_gl = spark.sql("select * from {} where category = {}".format(tableName, cat)

浏览 1提问于2018-09-09得票数 0

1回答

如何在Rstudio服务器中使用regsubset穷举方法实现多核处理器

r、rstudio、multicore、rstudio-server

我如何重写代码，以便在Rstudio服务器上实现多核的使用，以便使用“穷举”方法从leaps包运行regsubsets？数据有1200个变量和9000个obs，因此代码被缩短如下： model<-regsubsets(price~x + y + z + a + b + ...., data=sample, nvmax=500, method=c("exhaustive")) 我们的服务器是一个四核7.5 gb的内存，对于这样的等式来说足够了吗？

浏览 1提问于2011-12-29得票数 0

1回答

如何同时在多台服务器上运行selenium脚本，以便一个接一个地节省执行时间？

selenium、automation、automated-tests

如何同时在多台服务器上运行selenium脚本，以便一个接一个地节省执行时间？场景:我有一个小时的总测试时间，20个服务器要测试，一个测试脚本大约需要30分钟才能执行，所以为了节省时间，我想在所有20个服务器上同时运行我的测试脚本。

浏览 0提问于2018-07-08得票数 0

回答已采纳

1回答

如何从pyspark dataframe中更快地保存csv文件？

python、apache-spark、hadoop、pyspark

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

在中的集群中，纯python脚本(不是pyspark)可以并行运行吗？

pyspark、azure-databricks

我希望将我的python脚本从本地迁移到云上，特别是在Azure Databricks上创建的集群上。纯python脚本可以并行运行(同时使用集群中的多个节点)，而不必转换为pyspark吗？是否可以检查作业是否并行运行？

浏览 3提问于2018-11-28得票数 1

1回答

StackOverflowError失败

apache-spark、pyspark、parquet、fixed-width

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。如果我将列数减少到500列，代码就能工作。请帮帮忙下面是我的代码 data_df = spark.read.text(input_path) schema_df = pd.read_json(schema_path) df = data_df for

浏览 8提问于2021-11-10得票数 0

回答已采纳

1回答

PicklingError:无法对未打开以读取的文件进行筛选：

logging、pyspark、databricks、azure-databricks

我在databricks上遇到的错误： /databricks/spark/python/pyspark/cloudpickle/cloudpickle_fast.py in dumps(obj, protocol, buffer_callback) 71 file, protocol=protocol, buffer_callback=buffer_callback 72 ) ---> 73 cp.dump(obj) 74 return file.get

浏览 4提问于2022-11-07得票数 0