腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4253)
视频
沙龙
1
回答
spark-elasticsearch
连接器
是否
支持
以
多个
并行
方式
读取
es
索引
数据
elasticsearch
我在https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html#spark-read上阅读 我想
读取
属于某个
索引
的所有
数据
我想问一下这个
spark-elasticsearch
连接器
是否
支持
多个
并行
的
读取
,以便我可以加快
读取
速度。
浏览 64
提问于2021-08-04
得票数 0
1
回答
java.io.IOException:在Pyspark中写入大文件时流已损坏
apache-spark
、
pyspark
、
cloudera
我正在从SQL server中
读取
大约900万行的
数据
,并将其插入到我的datalake中已经存在的表中。 这一过程处理的
数据
较少,约为100万。
浏览 31
提问于2020-07-24
得票数 1
3
回答
用Informatica从Terdata摄取
数据
到Hadoop的最佳方法是什么?
hadoop
、
teradata
、
informatica
、
informatica-powercenter
、
bigdata
在
并行
数据
移动的情况下,将中的
数据
并行
到Hadoop中的最佳方法是什么? 在
并行
流中加载
数据
并将不必要的工作负载分配给Teradata的推荐最佳实践是什么
浏览 7
提问于2017-07-04
得票数 1
回答已采纳
1
回答
OpenBSD
支持
并行
内核访问吗?
multithreading
、
kernel
、
system-calls
、
bsd
、
openbsd
我试图找出
多个
进程或线程
是否
可以执行并发系统,而不让其中一个进程休眠。也就是说: OpenBSD
是否
使用类似于的东西。那么: Ope
浏览 4
提问于2021-04-20
得票数 2
1
回答
询问有关本体和图
数据
库的问题
elasticsearch
、
graphdb
我打算将我的大
数据
从Cassandra迁移到Graphdb,但是我
读取
的文档可以包含2^40实体=2000 B实体。我对此几乎没有疑问: 有没有一种方法可以搜索
多个
实体和
多个
属性(已经在elasticsearch上
索引
了) /entity?
是否
需要创建每个
ES
连接器
--所有属性/per实体--才能获
浏览 9
提问于2020-03-09
得票数 1
1
回答
Bigtable
数据
触发器/监视
google-cloud-dataflow
、
google-cloud-bigtable
我希望
以
一种无界的
方式
将bigtable中的
数据
放入
数据
流中,这样处理就可以基于对表的连续插入而触发。文档()只讨论了使用扫描的有界
读取
。
连接器
或大表
是否
支持
此模型?
浏览 0
提问于2016-05-11
得票数 1
2
回答
Kafka JDBC
连接器
加载所有
数据
,然后递增
elasticsearch
、
apache-kafka
、
apache-kafka-connect
、
confluent-platform
我试图弄清楚如何最初从查询中获取所有
数据
,然后只使用kafka
连接器
进行增量更改。原因是我想把所有
数据
加载到弹性搜索中,然后保持
es
与我的kafka流同步。目前,我首先使用带有mode = bulk的
连接器
,然后将其更改为时间戳。这个很好用。但是,如果我们想要将所有
数据
重新加载到流和
ES
中,这意味着我们必须编写一些脚本,
以
某种
方式
清除或删除kafka流和
es
索引
数据
,修改conne
浏览 3
提问于2017-05-04
得票数 7
回答已采纳
1
回答
非解析
索引
全表扫描的寻呼性能
postgresql
、
partitioning
我们偶尔会查询一个
索引
字段,该字段与分区键的字段是分开的。我的直觉说不行。我们现在将扫描
多个
索引
,而不是扫描一个
索引
。但是,与我一起工作的另一名开发人员坚持认为,查询将更快,因为
数据
库将
并行
扫描
多个
较小的表,而不是扫描一个大型
索引
。
浏览 0
提问于2014-08-08
得票数 1
回答已采纳
2
回答
Elasticsearch
索引
策略创建最佳实践/性能
performance
、
elasticsearch
、
indexing
、
sharding
我正在设计一个基于ElasticSearch的搜索系统,在阅读了很多之后,我看到一些系统,比如日志,使用
多个
索引
的策略来保存相同的内容,类似于mylogs-12-02-2020,并且每天创建一个
索引
,然后为了搜索,它们在所有符合mylogs- * pattern的
索引
中执行搜索,每个
索引
都有它的主碎片和副本。我的问题将是关于搜索的性能,它将更好地表现为查看一个包含500万个文档的
索引
,其中包含n个碎片,或者查找50个包含100,000个文档的
索引
。有谁有什么最佳实践经验
浏览 5
提问于2020-02-22
得票数 4
回答已采纳
1
回答
在
索引
时合并来自不同源的
数据
elasticsearch
、
logstash
、
fscrawler
我有两个文件爬虫作业分别运行在
数据
上,这些
数据
使用fscrawler()相互关联。现在我想在
索引
时
以
某种
方式
合并
数据
(子父关系或平面文档是可以的),所以需要一些中间件。看看Logstash和
ES
5.0中新的Ingest特性,似乎没有人
支持
编写自定义处理器。编辑:一个作业
以
json格式抓取“文章”。文章可以在不同的位置拥有
浏览 7
提问于2016-10-14
得票数 0
回答已采纳
1
回答
源Vs PTransform
java
、
google-cloud-dataflow
我是这个项目的新手,我正试图在Dataflow和一个
数据
库之间创建一个
连接器
。Source/Sink API
是否
足够稳定,可以被认为是编码输入和输出的好方法? 谢谢你的建议!
浏览 4
提问于2016-01-11
得票数 12
回答已采纳
1
回答
并行
调用mysql
数据
库时的注意事项
java
、
mysql
、
database
、
parallel-processing
、
connector-j
我必须第一次创建一个mysql
数据
库,供
多个
应用程序
并行
使用。到目前为止,我对mysql
数据
库的唯一经验是查询
数据
库的单个程序(例如webserver)。现在,我将进入一个场景,其中我将拥有几个CXF java servlet类型的程序,以及一个后台服务器对相同的模式进行编辑和
读取
。在所有实例中,我都使用Connector/J JDBC驱动程序连接到
数据
库。 我的问题是:我需要做什么才能确保
并行
访问不会成为问题。我意识到我需要在适当的地方使用
浏览 1
提问于2012-04-26
得票数 0
回答已采纳
1
回答
SQLite做了太多的小型磁盘
读取
java
、
database
、
sqlite
、
query-optimization
、
resultset
我使用
多个
并行
线程一次
以
100 K左右的分块
读取
这些
数据
。读和写不是
并行
的,所有的写都是在开始读之前完成的。
是否
有任何SQlite设置
浏览 0
提问于2018-09-09
得票数 0
1
回答
云
数据
融合与DataFlow的差异分析
google-cloud-dataflow
、
google-cloud-data-fusion
GCP管道服务之间的区别是什么:云
数据
流和云
数据
融合...对你来说是什么时候? 我做了一个高级定价,在
数据
融合中使用了10个基本实例。
数据
流中的10个实例集群(n1-standard-8)。
数据
扩散的价格要高出一倍以上。 彼此之间的优缺点是什么?
浏览 32
提问于2021-04-08
得票数 0
1
回答
用GCP
数据
流和从GCS中异常缓慢地
读取
python-3.x
、
google-cloud-dataflow
、
apache-beam
不完全确定
是否
有任何方法可以加快这部分的速度。下面是我看到的日志警告的截图,在作业最终成功完成之前。
浏览 3
提问于2020-05-11
得票数 0
1
回答
额外的
索引
是否
会加剧锁争用?
mysql
、
postgresql
、
index
、
locking
不考虑创建
索引
:在表上创建
索引
是否
会对锁定获取不利? 我已经经历过一些情况,经过精心选择的
索引
在
数据
库中启用了更高的
并行
性,正如(并记录在案) MySQL使用
索引
(gap)锁定所期望的那样。但是,
是否
也有相反的可能性,即来自不同事务的两个或
多个
查询,如果没有某些
索引
,就不会
以
彼此的
方式
进行,但是如果给定额外的
索引
,则会导致额外的锁等待?
浏览 0
提问于2017-05-22
得票数 3
1
回答
CPU影响,扫描计数9,逻辑
读取
1686,物理
读取
0 vs扫描计数1,逻辑
读取
10253,物理
读取
20。
sql-server
、
sql-server-2012
、
performance
、
performance-tuning
我有一些第三方软件,经常执行相同的更新查询,在1,000万行表上使用1gb
数据
。id=Syv7OxRHW表'hspendingitems‘扫描计数9,逻辑
读取
1686,物理
读取
0,先读
读取
0,lob逻辑
读取
0,lob物理
读取
0,lob预读
读取
0.附加指数CREATE NONCLUSTERED INDEX [ix_test_dba] ON [hsi].DROP_EXISTING = OFF, ON
浏览 0
提问于2017-07-20
得票数 3
1
回答
如果我再次将相同的文档放到ElasticSearch中,它会重新
索引
它吗?
search
、
elasticsearch
、
full-text-search
我所拥有的是一个建立在
ES
之上的自定义搜
索引
擎,向它提供来自
多个
供应商的
数据
。为了找出自上次
索引
以来,特定文档
是否
发生了变化(例如,在定期从供应商手中重新提取文档时-没有办法要求某些供应商“只给我自那一天以来更改的文档”),我将不得不以某种
方式
检查它以进行修改,并将其放到
ES
中,以便对iff进行
索引
。问:
ES
是否
在内部跟踪文档校验和,
以
查看它
是否
需要重新
浏览 1
提问于2016-11-22
得票数 1
1
回答
SQLite+FMDB:
多个
数据
库的
并行
查询
sqlite
、
parallel-processing
、
fmdb
假设我有N个SQLite
数据
库,每个
数据
库都在自己的文件中。它们有完全相同的模式,但
数据
集不同。我想编写单个应用程序,它可以
以
并行
的
方式
查询每个
数据
库,然后对接收到的
数据
执行一些操作。因此,我想知道SQLite
是否
允许同时打开和操作
多个
独立的
数据
库连接;( 2) FMDB
支持
这样的操作模式。
浏览 5
提问于2017-01-20
得票数 0
2
回答
如何导出大型Neo4j
数据
集
以
自动化
方式
进行分析
apache-spark
、
neo4j
、
cypher
、
bigdata
所有节点和边缘都具有5到10个元
数据
属性。每天,我们将所有客户的
数据
从Neo4j导出到一系列执行业务逻辑的python流程。我们目前运行在一个具有
浏览 0
提问于2018-05-01
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
携程Elasticsearch数据同步实践
ES学习分享
拥抱 Elasticsearch:给 TiDB 插上全文检索的翅膀
干货|UART到底什么?看完秒懂
索引表和ES的一点点感受
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券