在我们的一个Pyspark作业中,我们有一个场景,我们在一个大的数据帧和相对较小的数据帧之间进行连接,我相信spark正在使用广播连接,我们遇到了以下错误 org.apache.spark.SparkException(SQLExecution.scala:98)
at org.apache.spark.sql.execution.exchange.BroadcastExc
我想每天写大约10 GB的数据到Azure SQL server DB,使用PySpark.Currently,使用JDBC driver,这需要花费数小时逐个制作insert语句。我计划使用azure-sqldb-spark连接器,它声称可以使用批量插入来加速写入。import com.microsoft.azure.sqldb.spark.config.Config
import co