在databricks中，如何将表数据加载到数据帧中？逐行还是批量？

在databricks中，可以使用Spark的API将表数据加载到数据帧中。加载数据可以逐行进行，也可以批量进行。

逐行加载数据：可以使用Spark的spark.read方法读取表数据，并将其加载到数据帧中。示例代码如下：

df = spark.read.format("table").load("database.table_name")

其中，database.table_name是要加载的表的名称。

批量加载数据：可以使用Spark的spark.sql方法执行SQL查询，并将查询结果加载到数据帧中。示例代码如下：

df = spark.sql("SELECT * FROM database.table_name")

其中，database.table_name是要加载的表的名称。

需要注意的是，加载数据时可以根据需求进行筛选、过滤等操作，以满足特定的业务需求。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据仓库 ClickHouse：https://cloud.tencent.com/product/ch
腾讯云数据仓库 TDSQL-C：https://cloud.tencent.com/product/tdsqlc
腾讯云数据仓库 TDSQL-MariaDB：https://cloud.tencent.com/product/tdsqlmariadb
腾讯云数据仓库 TDSQL-MySQL：https://cloud.tencent.com/product/tdsqlmysql
腾讯云数据仓库 TDSQL-PostgreSQL：https://cloud.tencent.com/product/tdsqlpostgresql

以上是腾讯云提供的一些数据仓库产品，可以根据具体需求选择适合的产品进行数据加载和处理。

为什么Azure数据库需要在Azure中的临时存储中存储数据

、

我学习了关于用azure databricks进行数据转换的教程，它说在将数据加载到蔚蓝突触分析中之前，由azure databricks转换的数据在加载到蔚蓝突触分析之前先保存在azure blob存储中的临时存储中。为什么需要在加载到蓝突触分析之前将其保存到临时存储中？

浏览 5提问于2020-08-01得票数 2

回答已采纳

1回答

当从文件加载时，Spark会在内存中保留DataFrame吗？

、、

如果我像这样创建一个数据帧： val usersDF = spark.read.csv("examples/src/main/resources/users.csv") spark实际上是将数据(从csv文件)加载(/copy)到内存中，还是作为分布式数据集加载到底层文件系统中？我之所以这样问，是因为在加载df之后，底层文件数据中的任何更改都不会反映在对dataframe的查询中。(当然，除非通过调用上述代码行再次重新加载数据帧。我在Databricks notebooks上使用交互式查询。

浏览 1提问于2019-10-25得票数 2

1回答

使用更改模式将数据插入到增量表中

、、

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的数据帧加载到增量表中。 loadfinaldf.write.format("delta").option("mergeSchema", "true")\ .mode("append").insertInto("table") 数据帧中的列每天都会发生变化。例如，在第2天

浏览 18提问于2021-10-29得票数 0

1回答

Azure Databricks，如何将csv自动下载到本地网络驱动器？

、、

我的工作目前实现了Azure Databricks。是否可以定期将我的数据帧作为csv自动下载到本地网络驱动器路径？例如，我们公司有周期性的报告，希望我可以通过在databricks中创建数据帧来实现自动化，并以某种方式让azure将csv下载到我们公司网络文件夹中的特定路径中。这有可能吗？仅供参考，我知道我可以将csv文件保存到文件存储(dbfs)，但主要问题is..how我或azure是否可以让csv定期自动填充到我们的公司网络中？

浏览 27提问于2020-01-08得票数 1

1回答

五角壶-从不同的数据库中检索数据

、、、、

我有一个场景，我从一个数据库(Postgres)获取数据，然后将数据加载到另一个数据库(Redshift)中的表中。水壶里有没有安排这项工作的方法？这是一个简单的insert into redshift select * from postgres

浏览 0提问于2016-08-09得票数 0

1回答

从在azure云上运行的databricks向外部配置单元群集写入pyspark

、、、

我有在databricks中运行的pyspark笔记本。我使用pyhive中的'hive.Connection‘连接到外部配置单元群集。我的数据存储在spark数据帧中。我的问题是，如何将来自dataframes的数据写入Hive中的新表，该表位于databricks以外的不同集群中？谢谢

浏览 11提问于2020-09-26得票数 0

1回答

将大型数据框导出到可供Power BI使用的单个文件的最佳方法

、、

我正在Azure Databricks中处理大量输入文件。我的最终数据帧大约有9800万行。我需要将其从Databricks导出，以便我可以将其导入Power BI进行报告。 Power BI目前似乎没有一个连接器可以解释分区的性质，如果我只是简单地将数据帧写入CSV。使用合并或转换为pandas数据帧并导出到CSV的速度非常慢，并且容易受到群集上的资源限制。我尝试过上述两种方法，但收效甚微。要以Power BI可以理解的方式有效地导出我的数据帧，我还有哪些其他选择？我不介意这是从Databricks方面还是从Power Query方面进行处理。

浏览 10提问于2019-04-29得票数 0

2回答

在Azure sql中摄取和处理数据的选项

、、

我需要一个我正在做的项目的专家意见。目前，我们使用调用存储过程的本地脚本将数据文件加载到Azure sql数据库中。我计划用ssis作业替换脚本，将数据加载到Azure Sql中，但考虑到我们的需求，这是否是一个好的选择，我也可以接受不同的建议。我们所经历的过程是在对活动表进行更新之前将数据文件加载到暂存表并进行验证。验证和更新是通过调用存储的procedures...so来完成的，ssis包将只加载数据并调用这些存储过程。我看过ADF、IR和Databricks，但它们似乎有些过火，但我愿意听到有经验的人也使用这些工具。我目前也在本地运行ssis包。对于这个场景有什么更好的架构或工具的建议吗

浏览 5提问于2019-11-08得票数 2

回答已采纳

1回答

使用Python从Dataricks写入Postgres

、、、、

浏览 2提问于2018-04-24得票数 0

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

、、、

我有一个要求，把数据从csv/熊猫数据写到databricks表。我的python代码可能不在databricks集群上运行。我可能在一个孤立的独立节点上运行。我使用databricks python连接器从databricks表中选择数据。选择是有效的。但我无法从csv或熊猫的数据加载到数据库。我是否可以使用databricks python连接器将csv/pandas数据中的大量数据加载到databricks表中？下面是用于获取databricks连接并使用databricks连接器在独立节点上执行选择的代码片段。 from databricks import sql conn = s

浏览 5提问于2022-08-19得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

2回答

Pyspark将多个csv文件读取到一个数据帧中(或RDD?)

、、、、

我有一个Spark 2.0.2集群，我正在通过Pyspark通过Jupyter Notebook访问它。我有多个以管道分隔的txt文件(加载到HDFS中。我需要使用spark-csv将其加载到三个独立的数据帧中，具体取决于文件的名称。我认为我可以采取三种方法--或者我可以使用python以某种方式遍历HDFS目录(还没有想出如何做到这一点，加载每个文件，然后执行联合。我还知道在spark中有一些通配符功能(参见) -我可能可以利用最后，我可以使用pandas从磁盘加载vanilla csv文件作为pandas数据帧，然后创建spark数据帧。这里的缺点是这些文件很大，加载到单个节点上的内

浏览 0提问于2016-12-14得票数 7

回答已采纳

1回答

com.databricks.spark.csv的推理模式问题

、、

我有休眠的csv Name,Department Sam,Software 1,Data Analytics name‘列中有一行的值为'Sam’，另一行的值为1 'Sam‘是String，1是Int 使用com.databricks.spark.csv时，我无法将两行都加载到数据帧我能做些什么来解决这个问题？谢谢

浏览 0提问于2020-08-14得票数 0

1回答

Oracle到Databricks连接

、、、、

我试图在Azure Databricks平台上读取Oracle数据库数据。有人能分享我如何将Oracle数据连接到Databricks的步骤吗？我可能已经搜索了整个互联网并阅读了文档，但我找不到真正有效的解决方案。不知道是不是因为我的司机不对什么的。下面是我的流程：将ojdbc8.jar文件上载到集群库(即时客户端19 ) 试图连接databricks笔记本上的数据，但没有工作有人能分享他们的过程吗？在库中上传哪个jar，在哪里可以找到这个文件？如何连接？样本代码？有什么更好的方法吗？

浏览 11提问于2021-09-16得票数 0

2回答

从Azure Databricks下载通过Python代码写入DBFS的文件

、

如何将DBFS中的文件下载到本地系统？该文件是从Databricks笔记本创建的。

浏览 2提问于2020-07-07得票数 1

回答已采纳

1回答

数据库AutoML -数据集上载

、、、

每当我将数据集上载到Databricks以运行AutoML实验时，Databricks就会自动将数据集截断为1000行。例如，我是否可以将带有9000+行的数据集上载到Databricks的数据部分？谢谢!

浏览 5提问于2022-06-29得票数 0

1回答

有没有另一种/类似的方法来解决数据库的sparks.read.format.load问题？

、、、

我正在尝试将avro文件加载到sparks数据帧中，这样我就可以将其转换为pandas，并最终转换为字典。我想使用的方法是： df = spark.read.format("avro").load(avro_file_in_memory) (注意:我试图加载到dataframe中的avro文件数据已经在内存中，作为来自python请求的请求响应) 然而，这个函数使用的是databricks环境中原生的sparks，我没有在这个环境中工作(我在pysparks中寻找类似的函数/代码，但我自己看不到任何东西)。有没有类似的函数，我可以在数据块之外使用，以产生相同的结果？

浏览 0提问于2019-06-07得票数 1

1回答

Az MySql to Az SQL Server - Data Lake Gen2

、、、

我创建了数据工厂管道，将初始和增量数据从Az MySql数据库加载到Data Lake中。将数据从MySql加载到数据湖的初始管道都很好。作为.parquet文件持久化。现在，我需要通过一些基本的类型转换将它们加载到SQL Server表中。最好的方法是什么？ Databricks =>挂载这些.parquet文件，标准化并加载到SQL Server表中吗？或者我可以在Azure上的SQL Server中创建这些文件的外部源并执行标准化。我们还不在Synapse (dwh)上。还是有更好的方法？

浏览 22提问于2020-04-21得票数 0

1回答

映射函数在DataFrame上的应用

、、

我刚刚开始使用databricks/pyspark。我正在使用python/spark 2.1。我已将数据上载到表中。该表是一个充满字符串的单列。我希望对列中的每个元素应用一个映射函数。我将表加载到数据帧中： df = spark.table("mynewtable") 我能看到的唯一方法是别人说的是将其转换为RDD以应用映射函数，然后返回到dataframe以显示数据。但这会引发作业中止阶段失败： df2 = df.select("_c0").rdd.flatMap(lambda x: x.append("anything")).toDF()

浏览 1提问于2017-07-31得票数 18

回答已采纳

1回答

数据库:导出数据分析报告

、、

在使用display(dataframe_name)之后，Databricks可以创建数据分析报告。我已经使用创建了一个数据分析报告，但是我不知道如何导出它。请你建议如何将这份报告导出/下载到我的本地系统好吗？

浏览 8提问于2022-11-25得票数 0

回答已采纳

1回答

如何将keras模型(.h5文件)从本地加载到Azure databricks工作区

、、

我在本地机器上创建了一个keras模型，并将其保存为model.h5格式。现在，我如何将此模型加载到Azure databricks上的工作区中，并在databricks笔记本中导入并使用该模型？尝试下面的网址，但不成功，似乎只有当你使用mlFlow保存数据库笔记本中的模型并使用mlFlow将其加载回数据库中时，它才有用： https://www.mlflow.org/docs/latest/python_api/mlflow.keras.html 如果我在本地机器上创建了keras模型，如何继续导入？，请帮助。

浏览 20提问于2020-08-03得票数 0

2回答

在spark中为dataframe中的特定列应用逻辑

、、、

我有一个Dataframe，它是从mysql导入的 dataframe_mysql.show() +----+---------+-------------------------------------------------------+ | id|accountid| xmldata| +----+---------+-------------------------------------------------------+ |1001| 12346|<AccountSetup

浏览 2提问于2018-08-29得票数 0

2回答

是否有可能将具有相同或不同顺序的相同头或头子集的多个csv文件读入火花数据帧？

、、、

我有许多csv文件在一个文件夹中，要加载到火花数据帧。它们都有相同的标头或一个标头，这是最长标头的子集，但顺序不同。文件1头- "a","b","c" 文件2头- "b","c","a" 文件3头- "a","b" 我有一个有a,b,c字段的模式。我试着用 sqlcontext.read .format("com.databricks.spark.csv") .option("delimiter","

浏览 7提问于2016-11-16得票数 4

1回答

Azure CosmosDB文档-批量删除

、、

最近，我要求从总计14Tb的Cosmos Db数据中删除几百万条记录。当我查看互联网时，我发现了一个存储的进程来执行批量删除，它是基于分区键工作的。我的场景是，我们在每个文档中都有4个属性。1. id 2.数字分区键3.开始日期4.结束日期要求是删除基于startdate的文档。从c中删除* where c.startdate >= '‘和c.startdate <='’ 上面的查询遍历所有分区并删除记录。我还通过在Databricks中运行查询来获取临时数据帧中的整个CosmosDB记录，并添加TTL，然后再次升级到Cosmos DB。有没有更好的方法

浏览 27提问于2020-02-05得票数 0

1回答

增量数据负载从Azure Synapse到ADLS使用三角洲湖

、

我们在中创建了一些视图。我们需要基于一个水标列来递增地查询这些数据，并且它必须被加载到Azure数据湖容器中，进入原始层，然后再加载到管理层。在原始层中，文件应该包含整个数据(满载数据).So，基本上我们需要附加这些数据并作为一个满载导出。我们是否应该使用Databricks Delta湖表来处理这个需求。如何将数据插入到达美湖表。此外，如果记录已从source.What中删除，则需要删除该记录，应将其用作此分区列。

浏览 4提问于2022-10-25得票数 0

1回答

火花范围、数据框架和内存管理

、、

我很好奇范围是如何与数据框架和星火一起工作的。在下面的示例中，我有一个文件列表，每个文件都独立加载在一个数据帧中，执行一些操作，然后将dfOutput写到磁盘。 val files = getListOfFiles("outputs/emailsSplit") for (file <- files){ val df = sqlContext.read .format("com.databricks.spark.csv") .option("delimiter","\t")

浏览 3提问于2016-06-24得票数 0

回答已采纳

1回答

从Databricks写入Synapse (Azure DW)非常慢

、、

我们使用Databricks及其SQL DW连接器将数据加载到Synapse中。我有一个包含10,000行和40列的数据集。需要7分钟！使用带Polybase和分段选项的数据工厂加载相同的数据集需要27秒。与海量复制相同。会出什么问题呢？我是否遗漏了一些配置？还是一切照常？连接配置： df_insert.write .format("com.databricks.spark.sqldw") .option("url", sqlDwUrlSmall) .option("dbtable", t_insert) .option( "fo

浏览 69提问于2019-12-19得票数 2

1回答

PySpark:如何更新嵌套列？

、、、

关于如何更新数据帧中的嵌套列，StackOverflow有几个答案。然而，它们中的一些看起来有点复杂。在搜索过程中，我从DataBricks找到了处理相同场景的文档：https://docs.databricks.com/user-guide/faq/update-nested-column.html val updated = df.selectExpr(""" named_struct( 'metadata', metadata, 'items', named_struct(

浏览 11提问于2019-04-25得票数 0

回答已采纳

1回答

数据库上的sql sparklyr sparkr数据帧转换

、、、

我使用以下代码在databricks上创建了sql表 %sql CREATE TABLE data USING CSV OPTIONS (header "true", inferSchema "true") LOCATION "url/data.csv" 下面的代码将该表分别转换为sparkr和r dataframe： %r library(SparkR) data_spark <- sql("SELECT * FROM data") data_r_df <- as.data.frame(data_spark

浏览 10提问于2018-07-25得票数 3

2回答

熊猫:新增行小计栏

、

这非常类似于，但我希望我的代码能够应用于数据帧的长度，而不是特定的列。我有一个DataFrame，我正在尝试将每一行的和作为一个列附加到dataframe。 df = pd.DataFrame([[1,0,0],[20,7,1],[63,13,5]],columns=['drinking','drugs','both'],index = ['First','Second','Third']) drinking drugs both First 1

浏览 3提问于2016-05-17得票数 1

回答已采纳

1回答

在PySpark中写入增量表时如何使用Zorder集群？

、、、

按照我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将其转换为PySpark 我看到Scala代码是这样的： spark.read.table(connRandom) .write.format("delta").saveAsTable(connZorder) sql(s"OPTIM

浏览 4提问于2019-01-08得票数 2

回答已采纳

1回答

SQLServer到Azure数据库的转换

、、、、

我正在从事SQL Server到Databricks的迁移工作。我有一些TSQL程序，最少有100行代码。我想把这些程序转换成Spark代码。对于POC (在1个TSQL proc上工作)，所有的源文件都被导入并创建为GlobalTempView的，并将TSQL转换为Spark SQL。并使用作为文件导出的最终globalTempView。现在，我在这里有一个问题，创建GlobalTempView并将TSQL proc转换为Spark SQL是最好的方法吗?或者将所有文件加载到数据帧中并将TSQL proc重写为Spark数据帧逻辑是最好的方法。请告诉我TSQL procs转换成

浏览 10提问于2021-10-29得票数 1

1回答

pyspark将前n个文件读入df

、

我正在试用databricks平台，我有兴趣将前6个文件加载到数据框架中。数据存储在dbfs:/mystore中，并以文本/csv文件的形式存在。 part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 part-00008 part-00009 part-00010 我所做的是创建一个spark会话： spark = SparkSession.builder.appName("tester").master("local[*]").get

浏览 13提问于2021-05-03得票数 1

2回答

将数据从Google BigQuery加载到Spark (在数据库上)

、、、、

我想从 (on )从加载数据。我注意到Databricks提供了很多对亚马逊S3的支持，但对谷歌却没有提供支持。从Google BigQuery将数据加载到Spark (在数据库上)的最佳方法是什么？会允许我这样做吗?还是只对托管在Google存储上的文件有效？

浏览 13提问于2016-04-05得票数 2

回答已采纳

1回答

从csv数据文件中更新/插入Oracle表

、、、、

我仍然在学习OracleSQL，我一直在试图找到最好的方法，用CSV文件中的数据更新/插入OracleSQL表中的记录。到目前为止，我已经了解了如何使用Oracle中的外部表将csv加载到临时表中，但很难找到关于如何将加载的数据更新/插入(UPSERT)到现有表的详细指南。当表中有30+字段时，最好的方法是什么？例如，最好是用熊猫之类的东西逐行读取csv，并逐个更新每条记录，还是最好用sql脚本来使用合并语句？并不是csv中的所有记录都有主键的值，在这种情况下，我需要插入而不是更新。谢谢你的帮助！

浏览 1提问于2022-04-24得票数 0

2回答

如何将非结构化的excel电子表格加载到pandas中？

、、

我熟悉如何将excel电子表格加载到pandas数据框中。但是，这假设电子表格本身具有定义良好的列和行。我有一个excel表，其中包含多个表，每个表有不同的行数和列数。在同一张表中还有一些文本和表格。对如何将其加载到熊猫中有什么建议吗？谢谢。

浏览 3提问于2017-06-10得票数 1

1回答

如何将数据从azure databricks加载到本地SQL数据库表？

、

首先，我已经创建了一个azure databricks笔记本和集群，并且能够访问来自datalake的数据。现在我必须将此数据加载到本地SQL数据库tables.how中，我可以将数据从azure databricks加载到一个本地SQL中。我看到有火花连接器，但不能加载它。附注:我的目标不是Azure SQL数据库，而是本地SQL数据库

浏览 9提问于2020-09-25得票数 0

1回答

将远程R包安装到Databricks群集而不是Notebook

、、

我正在尝试将prophet包安装到Databricks。我想把它直接安装到我的集群中，而不是笔记本上。下面是将其安装到notebook的代码： Sys.setenv(DOWNLOAD_STATIC_LIBV8 = 1) remotes::install_github("jeroen/V8") devtools::install_version("rstantools", version = "2.0.0") install.packages('prophet') 但是，我想将其直接下载到我的集群中。我如何将这段代码添加到我的Da

浏览 41提问于2021-11-08得票数 2

回答已采纳

2回答

寻找处理从Azure Blob到Azure SQL DB的数以万计JSON的替代解决方案

、、、

目前，我已经开发了一些管道，可以利用Azure DataBricks的编排功能和Azure DataBricks来执行以下操作.我在实时的基础上接收数以万计的单个记录json文件到Azure Blob，在15分钟的基础上，我检查文件夹中的任何新文件，一旦发现我使用Databricks将它们加载到dataframe中，并将它们加载到SQL DB中的单个文件中，然后让其他ADF作业触发存储过程，然后将我的数据转换为最终的SQL表.我们希望摆脱Databricks，因为我们并不是为了它的真正功能而使用它，但是我们当然要支付Databricks的费用。寻找关于其他解决方案的想法，以便定期(即15分钟)

浏览 5提问于2020-06-24得票数 1

回答已采纳

1回答

dataframe中每列的pyspark最大字符串长度

浏览 92提问于2020-11-03得票数 0

回答已采纳

1回答

尝试将查询结果导出为CSV并上传到SharePoint (PySpark)时遇到困难

、、、

我正在尝试运行查询，并将结果另存为CSV文件，该文件将上载到SharePoint文件夹。这是通过Pyspark在Databricks中实现的。我的下面的代码几乎可以做到这一点，但是最后一行不能正常工作--在SharePoint中生成的文件不包含任何数据，尽管数据帧包含。我是Python和Databricks的新手，如果有人能提供一些关于如何纠正最后一行的指导，我将非常感激！ from shareplum import Site from shareplum.site import Version import pandas as pd sharepointUsername = shar

浏览 0提问于2021-10-05得票数 0

2回答

按列还是按行构建数据帧？

我必须构建一个新的数据帧作为我的python程序的输出，这个数据帧依赖于以前的列，例如，列1和列2将在col3中定义项，并且col4使用以前的cols。在数据帧中总共有7个cold。我该如何逐列构建它，还是逐行构建？

浏览 1提问于2019-05-14得票数 0

3回答

Google从桶到实例下载数据

我正在尝试将整个数据从google云上的桶(跟踪-数据)下载到Linux系统上的实例(实例-1)。我在这里看到了一些选项：，但我不确定有什么方法可以从一个桶下载到另一个实例。我正在通过我的终端访问我的实例，我用gsutil做了几次尝试，但到目前为止还没有成功。知道如何将整个桶下载到我的实例中吗？(最好把它放在MDNet/data中，我还没有这样的目录，但我可能应该将数据存储在那里)。

浏览 3提问于2019-06-03得票数 3

回答已采纳

1回答

成批读取文件

、、

我正在创建一个小批处理应用程序，我想知道如何将文件内容放入变量或通配符中。(不知道是哪一个)我以前能做"set blablabla=< MainChat.txt“，但它不起作用。如果有人能告诉我如何将文件的一行加载到变量中，并将下一行加载到另一行中，这将是非常有帮助的。

浏览 2提问于2015-01-30得票数 0

回答已采纳

1回答

如何在C#中删除数据中的特殊字符后将数百万行数据从dbf文件上传到SQL Server

、、、

我的任务是在删除记录中存在的特殊字符后，将.dbf文件上载到SQL Server。我使用了正则表达式来删除特殊字符。首先将数据加载到数据读取器中，然后再加载到数据表中。在再次对数据进行操作后，将数据加载到数据表中，然后使用批量复制insert将数据加载到数据库中。它可以很好地处理150000行，但是对于300,000行，当数据加载到数据表中时，我会得到一个OutOfMemoryException。 DataTable dt = new DataTable(); using (OleDbDataReader dr = cmd.ExecuteReader()) {

浏览 0提问于2020-10-03得票数 0

1回答

在databricks中，如何将表数据加载到数据帧中？逐行还是批量？

、、

我对databricks notebooks和dataframes不熟悉。我需要将一个包含大约1400万条记录的表中的几列加载到dataframe中。一旦表被加载，我需要根据两列中出现的值创建一个新列。我希望在将表加载到dataframe中时，为新列编写逻辑以及select命令。例如： df = spark.read.table(tableName) .select(columnsList) .withColumn('newColumnName', 'logic') 它会对性能有什么影响吗？首先将这几列的表加载到df

浏览 12提问于2020-12-20得票数 0

1回答

Pytorch神经网络如何将数据集加载到GPU中

、、

在将数据集加载到GPU进行训练时，Pytorch NN将加载整个数据集还是只加载批处理？我有一个33 T4的数据集，很适合我的普通内存(64 T4)，但我只有16 T4的GPU内存(T4)。只要Pytorch一次只将一批加载到GPU中，那么它应该工作得很好，不会出现任何内存问题？

浏览 133提问于2021-04-10得票数 0

回答已采纳

4回答

如何搬迁COS文件？

COS文件只支持上传，不支持下载，请问要如何将储存在COS上的文件批量下载到本地？

浏览 535提问于2016-04-05

1回答

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别？

、、、、

我正在Azure databricks中读取一个拼图文件:使用SparkR > read.parquet()使用Sparklyr > spark_read_parquet()这两个数据帧是不同的，有没有办法将SparkR数据帧转换为sparklyr数据帧，反之亦然？

浏览 11提问于2020-08-18得票数 0

回答已采纳

1回答

如何检查是否将查询从databricks下推到snowflake？

、、、

我正在尝试使用从databricks到Snowflake的查询下推。我正在将数据从snowflake(数据源)读取到databricks，创建数据帧，并应用连接、过滤器和聚合函数。代码运行正常，但无法找到查询是否被下推到snowflake。如何检查是否在snowflake或spark(databricks)集群上运行了查询？

浏览 1提问于2021-11-17得票数 1