在databricks notebook之间共享缓存/持久数据帧是可能的吗？_在C++和C#之间共享“枚举类”是可能的吗？_这种数据帧结构在Pandas中是可能的吗？ - 腾讯云开发者社区

apache-spark、hadoop、databricks

我想在一个笔记本中缓存一个表(Dataframe)，然后在另一个笔记本中使用它，我对这两个笔记本使用相同的databricks集群。请建议，如果这是可能的，如果是，那么如何？

浏览 22提问于2021-11-12得票数 1

1回答

如何在ios中创建/使用共享应用组容器作为包含应用及其扩展之间的缓存

ios、caching、watchkit、ios-app-group

app和其扩展之间的数据共享是通过公共AppGroup实现的。我可以使用共享应用组容器作为持久的数据/文件存储。如何创建/使用共享应用组容器作为包含的应用及其扩展之间的缓存存储？这有可能吗？

浏览 0提问于2015-05-11得票数 4

1回答

如何在数据库PySpark中使用在Scala中创建的DataFrame

python、scala、pyspark、databricks

我的Databricks笔记本使用的是Python。notebook中的一些代码是用Scala编写的(使用%scala)，其中之一是用于创建数据帧。如果我再次使用Python/PySpark (默认模式)，我如何使用/访问这个在scala模式下创建的dataframe？谢谢

浏览 14提问于2019-11-17得票数 1

回答已采纳

1回答

databricks:在表中添加一列并插入其余数据

python、pandas、azure、databricks

我对databricks和sql是新手，我想在那里添加一些数据。Id| A| B| C| D| E| F| G| H| I| J| K (A，B，C....是列名) 我将解析日志文件，因为它们将出现在blob中，并创建数据帧。数据帧可能

浏览 0提问于2021-06-07得票数 0

2回答

通过Python中的Databricks* api读取Databricks表？*

python-3.x、pyspark、databricks

使用Python-3，我试图将Excel (xlsx)表与Databricks中相同的星火表进行比较。我希望避免在Databricks中进行比较。因此，我正在寻找一种通过Databricks api读取星火表的方法。这个是可能的吗？我怎样才能继续读一张桌子: DB.TableName？

浏览 8提问于2021-03-19得票数 1

回答已采纳

1回答

火炬数据集和共享内存？

pytorch、python-multiprocessing

我想在torch.utils.data.Dataset中缓存数据。简单的解决方案是将某些张量持久化到dataset的一个成员中。但是，由于torch.utils.data.DataLoader类生成多个进程，因此缓存将只对每个实例是本地的，并可能导致我缓存相同张量的多个副本。有没有一种方法可以使用Python的多处理库在不同的加

浏览 3提问于2020-03-05得票数 5

2回答

在Databricks中导入笔记本

python、python-import、databricks、databricks-connect

我正在使用databricks-connect和VS Code为Databricks开发一些python代码。对于基本的笔记本，它工作得很好，但我想对多个笔记本做同样的事情，并使用导入(例如，在另一个笔记本中使用import config-notebook )。然而，在VS代码中，import another-notebook工作得很好，但在数据库中却不起作用。据我所知，Databricks中的替代

浏览 45提问于2021-10-19得票数 1

2回答

写到csv的火花性能差

performance、apache-spark、pyspark、apache-spark-sql

上下文我试过什么发生了什么截图 Then..if我钻研了这份工作。如果我再往下钻

浏览 1提问于2020-07-01得票数 1

1回答

在postgresql中更新数据后不要更改jsp上的数据

postgresql、jsp、servlets、jpa、eclipselink

我有类可以从db和servlet获取数据，以便将这些数据发送到jsp。如果我在表中插入或删除行(使用pgAdmin)，jsp上的数据将被更新(使用新数据)，但是如果我在表中更新现有日期，则jsp上不会更新它(仅在重新启动glassfish之后)。request, response); public void init() throws ServletException { } 获取数据</e

浏览 0提问于2015-02-25得票数 0

回答已采纳

2回答

如何缓存火花数据帧并在另一个脚本中引用它

apache-spark、pyspark、apache-spark-sql、pyspark-sql

是否可以缓存数据帧，然后在另一个script?...My目标中引用(查询)它，如下所示：在脚本2中，df中的查询数据

浏览 10提问于2016-02-23得票数 12

回答已采纳

1回答

将Jupyter笔记本与Python会话同步

python、spyder、jupyter-notebook

我开始使用Python和Jupyter notebook进行数据分析。我喜欢Jupyter笔记本，但有时我更喜欢使用Spyder来快速查看内存中保存的对象(变量、数据帧等)。这就是为什么我想知道是否有可能在IDE (如Spyder或Rodeo)中打开的Python会话和笔记本之间有一个共享工作区，这样我就可以共享对象，避免重复执行相同的代码，从而两全其美。

浏览 3提问于2016-05-05得票数 3

2回答

在现有ignite集群上启用默认持久性

java、ignite

我们的应用程序使用ignite在不同的服务之间共享数据。我们有几个缓存和队列。目前，一些高速缓存使用第二数据区域进行持久化。这可以很好地工作。一个新的需求是持久化队列中的项。因为队列总是使用我假设的默认数据区域，所以如果我在该区域上启用持久性，那么队列内容应该是持久的

浏览 45提问于2020-04-22得票数 1

回答已采纳

1回答

在Azure数据库上运行Bokeh服务器？

python、azure、ipython、bokeh、databricks

我在本地使用来可视化数据。我也尝试在Azure版本的Databricks中这样做，但甚至无法运行的第一行：from()缺少一个必需的位置参数：'data‘ 我进一步研究了一下，发现databricks显然是构建在开放的IPython 2.2.0之上<

浏览 0提问于2018-10-11得票数 1

回答已采纳

1回答

如何终止Databricks笔记本的并行执行？

multithreading、parallel-processing、databricks、dbutils

我目前正在使用Python的Threading来并行执行多个Databricks笔记本。这些是长时间运行的笔记本，我需要添加一些逻辑来终止线程，以防我想用新的更改重新启动执行。在不终止线程的情况下重新执行主notebook时，集群很快就会被计算量大、寿命长的线程填满，为实际所需的计算留下很少的空间。我尝试过的建议，但没有成功。我将非常感谢任何关于如何解决这个问题的</em

浏览 2提问于2020-07-07得票数 0

2回答

在Azure Databricks群集重新启动之前不会显示记录

databricks、azure-databricks、delta-lake

在过去的几个月里，我们一直在使用Azure Databricks / Delta lake，最近开始发现加载记录的一些奇怪行为，特别是除非重新启动集群或指定特定版本号，否则不会返回最新记录。如上所述，这似乎只影响新插入的记录。以前有没有人遇到过这个问题？任何帮助都将不胜感激。感谢科尔

浏览 28提问于2021-09-06得票数 1

1回答

我可以在databricks中创建SQL临时表的等价物吗？

databricks

我有一个databricks笔记本，我目前在其中创建了一个基于几个增量表的视图，然后根据这个视图更新一些相同的增量表。但是，我得到了不正确的结果，因为随着增量表的变化，视图中的数据也会发生变化。我实际上需要的是在notebook开始运行时拍摄数据的快照，然后我可以在整个notebook中使用它，类似于SQL临时表。目前，我正在通

浏览 68提问于2021-08-27得票数 0

回答已采纳

1回答

Spark Persist和UnPersist

apache-spark

Data_one.unpersist(); Data_one.show(); 即使在取消后，数据帧仍在打印。只是搞不懂什么时候数据帧不会持久。

浏览 13提问于2020-02-10得票数 0

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据

浏览 9提问于2016-04-28得票数 39

回答已采纳

3回答

PySpark数据帧性能调整

apache-spark、pyspark

我正在尝试合并一些脚本；让我们只读一次DB，而不是每个脚本从Hive读取相同的数据。因此，转移到只读一次；处理多个模型。我持久化了数据帧并在每次聚合后重新划分输出；但我需要它更快，如果有什么不同的话，那就是这些东西减慢了它的速度。我们每天都有20TB+的数据，所以我认为如果数据要被多次读取，那么持久化数据会让事情变得更快，但事实并非如此。此外，我有很多工作发生在相同的数据

浏览 0提问于2020-04-23得票数 0

1回答

列或行最大限制的Pyspark数据帧

python、pyspark、databricks

我有一个在databricks中创建的pyspark笔记本。我有一个dataframe，需要动态添加列，目前列数是186。当我到达python行的长度为10000时，我看不到None、Lit等的颜色编码，并且我的notebook单元格在行大小达到10000之后无法识别size列声明。 python中的一行有大小限制吗？如果是这样的话，有没有更好的方法将这些列添加到数据</e

浏览 17提问于2019-03-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云