腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
PySpark
中
跨
多个
时间
间隔
使用
.
filter
()
操作
?
、
、
、
、
我
使用
的是广播内连接,我认为它不够快。 我有一个
间隔
元组,属性是: timestamp_start,timestamp_end,还有一个
时间
序列数据帧元组,属性是: DataFrame,value。然后,函数返回属于以下某个
间隔
的所有值: def
filter
_intervals(intervals, df): df = df.join(broadcast(intervals),
浏览 23
提问于2021-04-26
得票数 0
回答已采纳
1
回答
用于OSX的Delphi gettimeofday (相当于win下的timeGetTime )
、
、
、
、
我正在转换一个
跨
平台
使用
的线程计时器池单元。当前单元
使用
timeGetTime来确保高精度,并在调用计时器事件时报告实际经过的
时间
间隔
。我以前在OSX中
使用
过gettimeofday来获得一个高精度的定时器,但在Delphi XE3
中
找不到任何对它的引用。寻找有关如
何在
Delphi
中
调用此函数的帮助,或者
使用
另一种
跨
平台方式来获取高分辨率计时器。我想要毫秒的准确性(我知道它依赖于
操作</em
浏览 2
提问于2013-02-27
得票数 1
回答已采纳
1
回答
在
使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中
使用
常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换
操作
和动作
操作
,
如
.map()、.reduceByKey()来
操作
这些对象。但是,如果我在
PySpark</
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
组合的转换会影响
PySpark
中
的
操作
执行
时间
吗?
、
、
、
我有一个
PySpark
代码,它接受
多个
输入数据,并生成一个数据作为输出。我执行许多火花转换(地图,过滤器,连接,还原键.)但没有火花行动。我执行的唯一
操作
是在代码的末尾(输出df的count())。..dfN = HiveContext.sql("select * from db.tableN") #join transformations...因此,我有两个问题: 1.
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上
使用
Python编程
、
、
最近我一直在
使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext函数。我的问题是,与常规的Python/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为在不同语言之间切换的认知工作,以及如果我需要分发工作,将代码从Python迁移到
pySpark
的麻烦。就库而言,我知道Python会有更多的功能,但在我目前的项目中,到目前为止还没有
使用
任何Spark没有涵盖的库,所以我最关心的是速度、内存和任何其
浏览 0
提问于2016-07-27
得票数 1
3
回答
如
何在
Spring 4
中
实现基于关系数据库的HTTP会话持久性?
、
、
我需要能够将HTTP会话存储在关系数据库
中
,以便实现
跨
多个
前端服务器的前端用户的无状态负载平衡。我如
何在
Spring 4
中
实现这一点?我知道如何
使用
Redis来实现这一点,但是似乎没有关于如何
使用
关系数据库(
如
Postgres )来实现此
操作
的文档。
浏览 2
提问于2015-07-14
得票数 9
回答已采纳
1
回答
如何将索引转换为
PySpark
DataFrame?
、
、
、
我有一个
PySpark
DataFrame,类似:------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望
使用
pyspar
浏览 2
提问于2019-08-20
得票数 1
回答已采纳
1
回答
使用
自定义模式创建一个拼花文件
、
、
我有这样的要求:我们有一个API,它将给我们列的模式。emp_name是字符串(50),emp_salary是十进制(7,4),joining_date是
时间
戳等等。 我必须
使用
来自API的模式创建一个parquet文件。我们如
何在
使用
Py
浏览 4
提问于2022-07-30
得票数 -1
回答已采纳
1
回答
在groupBy(x).agg中进行过滤,以在的不同子集上创建平均值
、
、
通常,当我必须进行聚合时,我
使用
类似于
PySpark
中
的以下代码:现在,我实际上想要计算dataframe df的
多个
子集上的平均值(例如,在不同的
时间
窗口上,例如去年的平均值,过去两年的平均值,
浏览 4
提问于2021-03-18
得票数 1
回答已采纳
1
回答
Azure数据库
中
在日期范围间读取拼花文件的有效方法
、
、
我想知道下面的伪代码是否是从
PySpark
()读取存储在Azure数据湖
中
的日期范围之间的
多个
拼花文件的有效方法。注意:拼花文件没有按日期进行分区。我
使用
uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet惯例在ADL
中
存储数据,正如Nathan在书“大数据”( Big )中所建议的
使用
*通配符读取所有数据: df = spark.read.parquet(uat
浏览 1
提问于2019-02-28
得票数 1
回答已采纳
3
回答
插入时处理并发性取决于读取
、
、
如
何在
Azure SQL数据库V12
中
解决这种并发性?用户插入的数据是
时间
间隔
(
如
start: 6:00, end: 7:00 )的开始和结束。要求必须不存在
时间
间隔
重叠。这意味着
间隔
start: 6:00, end: 9:00和start: 5:00, end: 6:00不可能同时存在。目前,我正在
使用
以下查询检查是否存在与用户尝试插入的新
间隔
重叠的行: SELECT COUNT(*) FROM [Ta
浏览 0
提问于2016-11-09
得票数 6
回答已采纳
1
回答
如
何在
全局范围内存储信息,以便
多个
TamperMonkey/GreaseMonkey脚本能够访问它?
、
、
如
何在
全球范围内存储信息,以便
多个
TamperMonkey/GreaseMonkey脚本能够访问它,并且也可以
跨
多个
域(
跨
域)共享?我尝试
使用
GM_SuperValue和GM_setValue/GM_getValue脚本,但是这些存储值的范围仅限于存储它的脚本,
如
提到的。因此,从脚本A存储的值不能从脚本B重试。LocalStorage解决了这个问题,因为脚本A和B是在同一个域上
使用
的。但不能解决
跨
域的问题。 是否存
浏览 4
提问于2017-03-06
得票数 1
1
回答
PySpark
:(广播)在最近的日期
时间
/unix连接两个数据集
、
、
、
、
我正在
使用
PySpark
,几乎要放弃我的问题了。我有两个数据集:一个非常大的(集合A)和一个相当小的(集合B)。B每隔几分钟就有一个
时间
戳。这里的主要问题是,在两个数据集中没有精确的
时间
戳匹配。 我的目标是在最近的
时间
戳上连接数据集。因为我想以一种特定的方式加入,所以出现了一个额外的问题。对于A
中
的每个条目,我希望将整个信息映射为最接近的
时间
戳,同时复制A
中
的条目。| 2015-01-01 12:00:00 y | 2015-01-0
浏览 10
提问于2020-10-08
得票数 1
回答已采纳
1
回答
在Rapidminer
中
从内容中提取标签
、
、
我在csv文件中有一些推文数据,我想(1)只提取标签(具有特殊字符,
如
##cloudcomputing,#cloud_computing,#101Cloud等,并将
多个
案例表示为一个标签,
如
#edtech,#Edtech,#EdTech等),(2)基于标签对推文进行分组,(3)统计每个标签词在文档
中
或语料库
中
跨
文档出现的次数。我知道我必须在“Title”列的“
Filter
Examples”
操作
符中
使用
正则表达式,但不知道如何
浏览 6
提问于2016-03-16
得票数 0
1
回答
使用
DynamoDB的复杂查询
、
、
在此之后,我想创建一个后端来监视和检测欺诈
操作
。 DynamoDB能否处理复杂的查询,
如
:-在指定
间隔
内具有X跳率的访问者列表--在日期/
时间
和日期/
时间
/
时间
排序和分组之间的流行目标URI
浏览 1
提问于2013-08-27
得票数 0
回答已采纳
3
回答
如何修改
pyspark
使用
的一行
中
的一个列值
我想当userid=22650984.How在
pyspark
平台上更新它的价值?谢谢你的帮助。>>>xxDF.select('userid','registration_time').
filter
('userid="22650984"').show(truncate=False) 18/04/08
浏览 8
提问于2018-04-08
得票数 11
回答已采纳
1
回答
android下同一
时间
间隔
的
多个
服务
如
何在
android
中
以相同的
时间
间隔
在后台运行
多个
服务?我试过
使用
AlarmManager,但在这种情况下,它不是以每5分钟一次的
间隔
运行(有时它运行正确,但不是所有
时间
都正确)。
浏览 1
提问于2017-05-12
得票数 3
1
回答
如何处理瞬态异常重试过程
中
的客户端响应?
、
、
、
、
上下文问题 客户端在什么地方适合重试
操作
?是否应该离开重试服务器,并
使用
指示服务器正在主动重试请求的消息和状态代码进行响应,然后进行客户
浏览 4
提问于2019-12-25
得票数 0
1
回答
如
何在
Azure
中
实现关键截面
、
、
如
何在
Azure
中
跨
多个
实例实现关键部分?因此,我们需要围绕所有更新实现一个关键部分,以实现数据库
中
的帐户余额。但是在Azure怎么做呢?指南建议
使用
Azure存储队列进行进程间通信。即使进程崩溃,我们也确信消息将由下一个进程处理。(
如
Azure保证在有问题时启动新流程) 我考虑运行一个单例工作者角色来为队列
中
的请求提供服务。但是Az
浏览 2
提问于2011-04-06
得票数 0
2
回答
基于日期范围的日期
间隔
小时
跨
多天的
间隔
小时 from t2015-10-05 240 from t 但我不知道如
何在
一个查询
中
做到这一点此外,从开始到结束的
时间
<e
浏览 3
提问于2015-11-09
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券