如何在PySpark中跨多个时间间隔使用.filter()操作？

文章/答案/技术大牛

发布

1回答

、、、、

我使用的是广播内连接，我认为它不够快。我有一个间隔元组，属性是: timestamp_start，timestamp_end，还有一个时间序列数据帧元组，属性是: DataFrame，value。然后，函数返回属于以下某个间隔的所有值： def filter_intervals(intervals, df): df = df.join(broadcast(intervals),

浏览 23提问于2021-04-26得票数 0

回答已采纳

1回答

用于OSX的Delphi gettimeofday (相当于win下的timeGetTime )

、、、、

我正在转换一个跨平台使用的线程计时器池单元。当前单元使用timeGetTime来确保高精度，并在调用计时器事件时报告实际经过的时间间隔。我以前在OSX中使用过gettimeofday来获得一个高精度的定时器，但在Delphi XE3中找不到任何对它的引用。寻找有关如何在Delphi中调用此函数的帮助，或者使用另一种跨平台方式来获取高分辨率计时器。我想要毫秒的准确性(我知道它依赖于操作</em

浏览 2提问于2013-02-27得票数 1

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark</

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

组合的转换会影响PySpark中的操作执行时间吗？

、、、

我有一个PySpark代码，它接受多个输入数据，并生成一个数据作为输出。我执行许多火花转换(地图，过滤器，连接，还原键.)但没有火花行动。我执行的唯一操作是在代码的末尾(输出df的count())。..dfN = HiveContext.sql("select * from db.tableN") #join transformations...因此，我有两个问题: 1.

浏览 3提问于2017-07-27得票数 0

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Python迁移到pySpark的麻烦。就库而言，我知道Python会有更多的功能，但在我目前的项目中，到目前为止还没有使用任何Spark没有涵盖的库，所以我最关心的是速度、内存和任何其

浏览 0提问于2016-07-27得票数 1

3回答

如何在Spring 4中实现基于关系数据库的HTTP会话持久性？

、、

我需要能够将HTTP会话存储在关系数据库中，以便实现跨多个前端服务器的前端用户的无状态负载平衡。我如何在Spring 4中实现这一点？我知道如何使用Redis来实现这一点，但是似乎没有关于如何使用关系数据库(如Postgres )来实现此操作的文档。

浏览 2提问于2015-07-14得票数 9

回答已采纳

1回答

如何将索引转换为PySpark* DataFrame？*

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspar

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

使用自定义模式创建一个拼花文件

、、

我有这样的要求：我们有一个API，它将给我们列的模式。emp_name是字符串(50)，emp_salary是十进制(7，4)，joining_date是时间戳等等。我必须使用来自API的模式创建一个parquet文件。我们如何在使用Py

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

在groupBy(x).agg中进行过滤，以在的不同子集上创建平均值

、、

通常，当我必须进行聚合时，我使用类似于PySpark中的以下代码：现在，我实际上想要计算dataframe df的多个子集上的平均值(例如，在不同的时间窗口上，例如去年的平均值，过去两年的平均值，

浏览 4提问于2021-03-18得票数 1

回答已采纳

1回答

Azure数据库中在日期范围间读取拼花文件的有效方法

、、

我想知道下面的伪代码是否是从PySpark()读取存储在Azure数据湖中的日期范围之间的多个拼花文件的有效方法。注意:拼花文件没有按日期进行分区。我使用uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet惯例在ADL中存储数据，正如Nathan在书“大数据”( Big )中所建议的使用*通配符读取所有数据： df = spark.read.parquet(uat&#

浏览 1提问于2019-02-28得票数 1

回答已采纳

3回答

插入时处理并发性取决于读取

、、

如何在Azure SQL数据库V12中解决这种并发性？用户插入的数据是时间间隔(如start: 6:00, end: 7:00 )的开始和结束。要求必须不存在时间间隔重叠。这意味着间隔start: 6:00, end: 9:00和start: 5:00, end: 6:00不可能同时存在。目前，我正在使用以下查询检查是否存在与用户尝试插入的新间隔重叠的行： SELECT COUNT(*) FROM [Ta

浏览 0提问于2016-11-09得票数 6

回答已采纳

1回答

如何在全局范围内存储信息，以便多个TamperMonkey/GreaseMonkey脚本能够访问它？

、、

如何在全球范围内存储信息，以便多个TamperMonkey/GreaseMonkey脚本能够访问它，并且也可以跨多个域(跨域)共享？我尝试使用GM_SuperValue和GM_setValue/GM_getValue脚本，但是这些存储值的范围仅限于存储它的脚本，如提到的。因此，从脚本A存储的值不能从脚本B重试。LocalStorage解决了这个问题，因为脚本A和B是在同一个域上使用的。但不能解决跨域的问题。是否存

浏览 4提问于2017-03-06得票数 1

1回答

PySpark：(广播)在最近的日期时间/unix连接两个数据集

、、、、

我正在使用PySpark，几乎要放弃我的问题了。我有两个数据集:一个非常大的(集合A)和一个相当小的(集合B)。B每隔几分钟就有一个时间戳。这里的主要问题是，在两个数据集中没有精确的时间戳匹配。我的目标是在最近的时间戳上连接数据集。因为我想以一种特定的方式加入，所以出现了一个额外的问题。对于A中的每个条目，我希望将整个信息映射为最接近的时间戳，同时复制A中的条目。| 2015-01-01 12:00:00 y | 2015-01-0

浏览 10提问于2020-10-08得票数 1

回答已采纳

1回答

在Rapidminer中从内容中提取标签

、、

我在csv文件中有一些推文数据，我想(1)只提取标签(具有特殊字符，如##cloudcomputing，#cloud_computing，#101Cloud等，并将多个案例表示为一个标签，如#edtech，#Edtech，#EdTech等)，(2)基于标签对推文进行分组，(3)统计每个标签词在文档中或语料库中跨文档出现的次数。我知道我必须在“Title”列的“Filter Examples”操作符中使用正则表达式，但不知道如何

浏览 6提问于2016-03-16得票数 0

1回答

使用DynamoDB的复杂查询

、、

在此之后，我想创建一个后端来监视和检测欺诈操作。 DynamoDB能否处理复杂的查询，如：-在指定间隔内具有X跳率的访问者列表--在日期/时间和日期/时间/时间排序和分组之间的流行目标URI

浏览 1提问于2013-08-27得票数 0

回答已采纳

3回答

如何修改pyspark使用的一行中的一个列值

我想当userid=22650984.How在pyspark平台上更新它的价值?谢谢你的帮助。>>>xxDF.select('userid','registration_time').filter('userid="22650984"').show(truncate=False) 18/04/08

浏览 8提问于2018-04-08得票数 11

回答已采纳

1回答

android下同一时间间隔的多个服务

如何在android中以相同的时间间隔在后台运行多个服务？我试过使用AlarmManager，但在这种情况下，它不是以每5分钟一次的间隔运行(有时它运行正确，但不是所有时间都正确)。

浏览 1提问于2017-05-12得票数 3

1回答

如何处理瞬态异常重试过程中的客户端响应？

、、、、

上下文问题客户端在什么地方适合重试操作？是否应该离开重试服务器，并使用指示服务器正在主动重试请求的消息和状态代码进行响应，然后进行客户

浏览 4提问于2019-12-25得票数 0

1回答

如何在Azure中实现关键截面

、、

如何在Azure中跨多个实例实现关键部分？因此，我们需要围绕所有更新实现一个关键部分，以实现数据库中的帐户余额。但是在Azure怎么做呢？指南建议使用Azure存储队列进行进程间通信。即使进程崩溃，我们也确信消息将由下一个进程处理。(如Azure保证在有问题时启动新流程) 我考虑运行一个单例工作者角色来为队列中的请求提供服务。但是Az

浏览 2提问于2011-04-06得票数 0

2回答

基于日期范围的日期间隔小时

跨多天的间隔小时 from t2015-10-05 240 from t 但我不知道如何在一个查询中做到这一点此外，从开始到结束的时间<e

浏览 3提问于2015-11-09得票数 0

回答已采纳

点击加载更多