我已经使用lambda函数尝试了带有参数的Spark并注册了它。但是我如何创建不带参数和注册程序的udf呢?我已经尝试过了,我的示例代码将显示当前的时间。pyspark.sql.functions导入的日期时间 timevalue=datetime.now()但是PySpark显示
NameError: name 'TimestampType' is no
我在Spark2.2中打开了几个"csv“文件,但当我做”计数“时,它返回了10000000的记录,而实际上它是6000000的记录,当我用python或Alteryx用Pandas检查它时,它给出了正确的数字scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("infer