腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
通过
Spark
对
不同
字段
执行
多个
正则表达式
规则
、
、
、
我们在日常活动中使用
spark
。在处理过程中,我们希望从description列中提取基于
正则表达式
的地理信息。我们试图找出我们可以提取城市信息的
正则表达式
,这样我们最终得到了每个城市CA,NY等的数百个
正则表达式
。问题是,当
规则
增加时,
执行
时间开始增加,因此寻找可以以分
浏览 15
提问于2020-02-05
得票数 0
2
回答
Rails中的多格式验证
、
、
我有一个
字段
字符串foo,它必须满足四个条件: 是否可以包含具有
不同
:format值的
多个
:message验证
规则
?理想情况下,我希望所有
浏览 0
提问于2012-03-27
得票数 10
回答已采纳
1
回答
将pdf文档中突出显示的文本映射到其.txt输出中的字符索引范围
、
、
、
我有一个项目,在这个项目中,我必须突出显示结构化PDF文档中的文本,并
对
其进行分类,这样我就可以对
多个
子字符串
执行
正则表达式
,并给它们各自的变量适当的值。是否有一种方法可以将PDF提示到屏幕上,用户可以在屏幕上突出显示
多个
部分并将每个部分自动分类到一个
字段
中,然后我可以使用该
字段
创建
正则表达式
,而不必首先从pdf中提取文本,然后在所有
不同
的子字符串上手动
执行
正则表达式
现在,我正在使用python中的
浏览 9
提问于2022-01-22
得票数 0
1
回答
如何使SQL大小写
对
字段
值不敏感
、
、
如何编写
Spark
命令以返回不区分大小写结果的
字段
?Sample_DF| name || Johnny|| ROBERT|+--------+
spark
.sql("select name from Sample_DF where status like '%Robert%'").show
浏览 4
提问于2022-10-03
得票数 0
回答已采纳
1
回答
是否可以在scala中将apache ignite rdd转换为
spark
rdd
、
、
、
、
我
对
apache ignite和
spark
都是新手。在scala中,有没有人可以
通过
示例将ignite rdd转换为
spark
rdd?更新-使用案例:我将收到hbase表的数据帧..我将
执行
一些逻辑来构建报告,将其保存到ignite rdd中。将为每个表更新相同的ignite rdd ...一旦所有的表都被
执行
,最终的ignite rdd将被转换为
spark
或java rdd,最后的
规则
将在该rdd上
执行
...要运行该
规则<
浏览 3
提问于2016-09-26
得票数 0
2
回答
如何对流式DataFrame进行多时间窗操作?
、
、
、
我在DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想
执行
以下操作: dataFrame.withWatermark("time", "10
浏览 0
提问于2017-08-30
得票数 1
2
回答
如何使用
正则表达式
拆分收据?
、
、
我最后一次使用
正则表达式
是在2年前,即使那时我也不认为它是最简单的东西! 谁能告诉我如何将这篇文章分成三组(数量,名称,价格)?我使用Objective-C,所以我可能会使用NSPredicate来
执行
表达式。
浏览 0
提问于2010-10-18
得票数 1
回答已采纳
1
回答
火花芯多列分组方式
、
我想使用
Spark
Core的
多个
字段
对
RDD
执行
group by操作 到目前为止,我能够连接两个
不同
的RDD,并按一列(date)
对
结果RDD进行分组,但我希望
对
多个
键/
字段
执行
group by操作,
浏览 0
提问于2019-04-24
得票数 0
2
回答
如何在pyspark的
不同
模块中使用相同的连接数据帧用法
、
、
、
、
我们有从
多个
源表读取数据并根据业务
规则
连接和应用映射的场景。在某些情况下,从几个表中读取的数据可以用于
多个
目标加载。那么,为了避免在运行
不同
的模块时多次读取相同的数据,有什么选择可以在
不同
的pyspark模块中使用相同的dataframe输出吗?df1 =
spark
.sql(select * from table1) df_out = df1.join(df2, ['custome
浏览 0
提问于2020-11-07
得票数 0
1
回答
分析火花分析器:如何访问QueryPlanningTracker查询?
、
、
、
日志记录(以下)表明,
Spark
重复计算同一个子查询的次数太多了,所以我试图挖掘,并
通过
分析
Spark
在查询上的工作来了解到底发生了什么。我尝试使用许多文章中的方法来分析星火优化阶段,以
执行
查询(例如Luca的,Rose的)。但我没有发现任何指南,重点分析星火分析器阶段,运行在优化阶段之前。还可以访问
Spark
的RuleExecutor,查看每个
规则
使用了多少时间&哪些
规则
无效:
spark
_session.sparkContext.setLo
浏览 5
提问于2022-02-16
得票数 2
1
回答
提高Gzipped文本文件的火花读取和Parquet转换性能
用例: A>在AWS s3 location B> Hive table上创建了文本Gzipped文件,以便以表C>的形式访问该文件中的数据,使用
Spark
读取表,并将表中包含两个分区列的
字段
转换为包含数据类型是字符串,除了两个
字段
以十进制作为数据类型外。使用以下火花选项:-
执行
器-内存37G -
执行
器-核心5-num-
执行
器20发现在AWS中使用的vCores数量总是等于文件的数量,可能是因为gzipGB文件来自
浏览 2
提问于2017-08-26
得票数 0
回答已采纳
0
回答
在提供依赖项时尝试
对
HiveContext进行测试会引发java.lang.SecurityException
、
、
、
、
当运行创建
spark
上下文的单元测试时,我得到一个java.lang.SecurityException。我知道原因是什么,但不确定如何追查如何解决它。这是共享具有
不同
签名者信息的相同包javax.servlet的
多个
依赖项。// Dependencies "org.apache.
spark
" % "
spark
-hive_2.10" % "1.6.2" % Prov
浏览 6
提问于2017-12-12
得票数 1
1
回答
用多重正则化重写.htaccess并获得值分配
、
、
在重写
规则
中没有
正则表达式
时,设置GET变量没有问题。例如,当我
执行
sample.html?test=OK时,下面的工作原理如出一辙,sample.php中的test变量被设置为OK。RewriteRule ^sample.html sample.php [NC]我在这里读过
多个
问题,但没有回答这类问题。我看
浏览 3
提问于2015-01-30
得票数 1
回答已采纳
1
回答
无法打印多行json字符串的所有值
、
、
、
我想
对
多个
“行”json字符串
执行
一些查询。",这就是我想做的:val df =
spark
.format(com.databricks.
spark
.avro) .as[String] .mkString 记得我有
多个
json文件,所以我有
多个
身体。从这里开始,我的目标是使用s
浏览 2
提问于2019-04-10
得票数 0
回答已采纳
2
回答
星火结构流-python-org.apache.kafka.common.TopicPartition;类
对
反序列化无效
、
、
、
我正在尝试
执行
下面的火花流示例代码。 at org.apache.
spark
.rdd.RDD.withScope(RDD.scala:358) at org.apache.<em
浏览 2
提问于2017-06-06
得票数 0
回答已采纳
2
回答
基于QUERY_STRING拒绝访问站点
、
我的网站“受到攻击”:来自许多
不同
is的机器人正在用垃圾邮件内容填充表单。IP地址不能被过滤,它们总是
不同
的,所以我想
通过
QUERY_STRING进行过滤,以匹配这样的URI:
规则
:rewriterule.* - [F,L]
正则表达式
看起来是正确的,但
规则</em
浏览 0
提问于2010-07-25
得票数 1
回答已采纳
2
回答
Webform没有
多个
选择列表的重复选择
、
、
我有一个网形 (7.x-4),它有两个选择列表,内容相同,如BD也就是说,如果他们检查A,当他们在第二个列表上检查A时,他们应该会得到一个错误。 做这件事的最好方法是什么?
浏览 0
提问于2016-06-08
得票数 1
回答已采纳
1
回答
火花流中的数据接收
、
、
在火花流中,接收器被安排在工作节点上的
执行
器中运行。 如果不是所有工作人员都运行接收程序来接收流数据,那么其他工作节点将不会接收任何数据?
浏览 0
提问于2015-05-26
得票数 3
1
回答
在JavaFX中使用这种输入验证方法有什么缺点吗?
、
以下是我的想法: 在一个抽象/父控制器中,我编写了一个方法,它获取当前AnchorPane的所有子级并
对
它们进行迭代(假设在用户单击OK以提交表单之后)。所有具有验证
规则
的子方法都传递给另一个方法,该方法根据输入
字段
浏览 1
提问于2015-12-17
得票数 1
回答已采纳
2
回答
在AWS胶水中运行的基于
规则
的引擎和作为Dynamo的
规则
存储库中的基于
规则
的引擎能有什么有效的设计?
、
、
、
我们正试图为
规则
引擎提供一个在AWS中实现的设计。下面是
对
这种情况的解释。 我们正在AWS上构建一个数据湖,使用S3作为存储,具有
不同
的存储桶来表示数据丰富。例如,数据落入原始桶中。从中选择数据并进行数据标准化(有些标准化使布尔
字段
统一,如有值0或1,将所有数据格式列转换成一个非格式的标准,如dd/mm/yyyy :mi:ss,
对
某些列数据的裁剪空间等)。此外,作业应该足够灵活,以便将来如果在dynamoDB表中添加了新
规则
,则应该
通过
胶水作业来
浏览 0
提问于2020-09-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
超全的Mysql查询数据,收藏!
nginx rewirte重定向规则
Presto 在有赞的实践之路
修复J2EE漏洞——ESAPI
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券