spark-elasticsearch连接器是否支持以多个并行方式读取es索引数据

elasticsearch

我在https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html#spark-read上阅读我想读取属于某个索引的所有数据我想问一下这个spark-elasticsearch连接器是否支持多个并行的读取，以便我可以加快读取速度。

浏览 64提问于2021-08-04得票数 0

1回答

java.io.IOException:在Pyspark中写入大文件时流已损坏

apache-spark、pyspark、cloudera

我正在从SQL server中读取大约900万行的数据，并将其插入到我的datalake中已经存在的表中。这一过程处理的数据较少，约为100万。

浏览 31提问于2020-07-24得票数 1

3回答

用Informatica从Terdata摄取数据到Hadoop的最佳方法是什么？

hadoop、teradata、informatica、informatica-powercenter、bigdata

在并行数据移动的情况下，将中的数据并行到Hadoop中的最佳方法是什么？在并行流中加载数据并将不必要的工作负载分配给Teradata的推荐最佳实践是什么

浏览 7提问于2017-07-04得票数 1

回答已采纳

1回答

OpenBSD支持并行内核访问吗？

multithreading、kernel、system-calls、bsd、openbsd

我试图找出多个进程或线程是否可以执行并发系统，而不让其中一个进程休眠。也就是说: OpenBSD是否使用类似于的东西。那么: Ope

浏览 4提问于2021-04-20得票数 2

1回答

询问有关本体和图数据库的问题

elasticsearch、graphdb

我打算将我的大数据从Cassandra迁移到Graphdb，但是我读取的文档可以包含2^40实体=2000 B实体。我对此几乎没有疑问：有没有一种方法可以搜索多个实体和多个属性(已经在elasticsearch上索引了) /entity？是否需要创建每个ES连接器--所有属性/per实体--才能获

浏览 9提问于2020-03-09得票数 1

1回答

Bigtable数据触发器/监视

google-cloud-dataflow、google-cloud-bigtable

我希望以一种无界的方式将bigtable中的数据放入数据流中，这样处理就可以基于对表的连续插入而触发。文档()只讨论了使用扫描的有界读取。连接器或大表是否支持此模型？

浏览 0提问于2016-05-11得票数 1

2回答

Kafka JDBC连接器加载所有数据，然后递增

elasticsearch、apache-kafka、apache-kafka-connect、confluent-platform

我试图弄清楚如何最初从查询中获取所有数据，然后只使用kafka连接器进行增量更改。原因是我想把所有数据加载到弹性搜索中，然后保持es与我的kafka流同步。目前，我首先使用带有mode = bulk的连接器，然后将其更改为时间戳。这个很好用。但是，如果我们想要将所有数据重新加载到流和ES中，这意味着我们必须编写一些脚本，以某种方式清除或删除kafka流和es索引数据，修改conne

浏览 3提问于2017-05-04得票数 7

回答已采纳

1回答

非解析索引全表扫描的寻呼性能

postgresql、partitioning

我们偶尔会查询一个索引字段，该字段与分区键的字段是分开的。我的直觉说不行。我们现在将扫描多个索引，而不是扫描一个索引。但是，与我一起工作的另一名开发人员坚持认为，查询将更快，因为数据库将并行扫描多个较小的表，而不是扫描一个大型索引。

浏览 0提问于2014-08-08得票数 1

回答已采纳

2回答

Elasticsearch索引策略创建最佳实践/性能

performance、elasticsearch、indexing、sharding

我正在设计一个基于ElasticSearch的搜索系统，在阅读了很多之后，我看到一些系统，比如日志，使用多个索引的策略来保存相同的内容，类似于mylogs-12-02-2020，并且每天创建一个索引，然后为了搜索，它们在所有符合mylogs- * pattern的索引中执行搜索，每个索引都有它的主碎片和副本。我的问题将是关于搜索的性能，它将更好地表现为查看一个包含500万个文档的索引，其中包含n个碎片，或者查找50个包含100,000个文档的索引。有谁有什么最佳实践经验

浏览 5提问于2020-02-22得票数 4

回答已采纳

1回答

在索引时合并来自不同源的数据

elasticsearch、logstash、fscrawler

我有两个文件爬虫作业分别运行在数据上，这些数据使用fscrawler()相互关联。现在我想在索引时以某种方式合并数据(子父关系或平面文档是可以的)，所以需要一些中间件。看看Logstash和ES 5.0中新的Ingest特性，似乎没有人支持编写自定义处理器。编辑:一个作业以json格式抓取“文章”。文章可以在不同的位置拥有

浏览 7提问于2016-10-14得票数 0

回答已采纳

1回答

源Vs PTransform

java、google-cloud-dataflow

我是这个项目的新手，我正试图在Dataflow和一个数据库之间创建一个连接器。Source/Sink API是否足够稳定，可以被认为是编码输入和输出的好方法？谢谢你的建议！

浏览 4提问于2016-01-11得票数 12

回答已采纳

1回答

并行调用mysql数据库时的注意事项

java、mysql、database、parallel-processing、connector-j

我必须第一次创建一个mysql数据库，供多个应用程序并行使用。到目前为止，我对mysql数据库的唯一经验是查询数据库的单个程序(例如webserver)。现在，我将进入一个场景，其中我将拥有几个CXF java servlet类型的程序，以及一个后台服务器对相同的模式进行编辑和读取。在所有实例中，我都使用Connector/J JDBC驱动程序连接到数据库。我的问题是:我需要做什么才能确保并行访问不会成为问题。我意识到我需要在适当的地方使用

浏览 1提问于2012-04-26得票数 0

回答已采纳

1回答

SQLite做了太多的小型磁盘读取

java、database、sqlite、query-optimization、resultset

我使用多个并行线程一次以100 K左右的分块读取这些数据。读和写不是并行的，所有的写都是在开始读之前完成的。是否有任何SQlite设置

浏览 0提问于2018-09-09得票数 0

1回答

云数据融合与DataFlow的差异分析

google-cloud-dataflow、google-cloud-data-fusion

GCP管道服务之间的区别是什么:云数据流和云数据融合...对你来说是什么时候？我做了一个高级定价，在数据融合中使用了10个基本实例。数据流中的10个实例集群(n1-standard-8)。数据扩散的价格要高出一倍以上。彼此之间的优缺点是什么？

浏览 32提问于2021-04-08得票数 0

1回答

用GCP数据流和从GCS中异常缓慢地读取

python-3.x、google-cloud-dataflow、apache-beam

不完全确定是否有任何方法可以加快这部分的速度。下面是我看到的日志警告的截图，在作业最终成功完成之前。

浏览 3提问于2020-05-11得票数 0

1回答

额外的索引是否会加剧锁争用？

mysql、postgresql、index、locking

不考虑创建索引:在表上创建索引是否会对锁定获取不利？我已经经历过一些情况，经过精心选择的索引在数据库中启用了更高的并行性，正如(并记录在案) MySQL使用索引(gap)锁定所期望的那样。但是，是否也有相反的可能性，即来自不同事务的两个或多个查询，如果没有某些索引，就不会以彼此的方式进行，但是如果给定额外的索引，则会导致额外的锁等待？

浏览 0提问于2017-05-22得票数 3

1回答

CPU影响，扫描计数9，逻辑读取1686，物理读取0 vs扫描计数1，逻辑读取10253，物理读取20。

sql-server、sql-server-2012、performance、performance-tuning

我有一些第三方软件，经常执行相同的更新查询，在1,000万行表上使用1gb数据。id=Syv7OxRHW表'hspendingitems‘扫描计数9，逻辑读取1686，物理读取0，先读读取0，lob逻辑读取0，lob物理读取0，lob预读读取0.附加指数CREATE NONCLUSTERED INDEX [ix_test_dba] ON [hsi].DROP_EXISTING = OFF, ON

浏览 0提问于2017-07-20得票数 3

1回答

如果我再次将相同的文档放到ElasticSearch中，它会重新索引它吗？

search、elasticsearch、full-text-search

我所拥有的是一个建立在ES之上的自定义搜索引擎，向它提供来自多个供应商的数据。为了找出自上次索引以来，特定文档是否发生了变化(例如，在定期从供应商手中重新提取文档时-没有办法要求某些供应商“只给我自那一天以来更改的文档”)，我将不得不以某种方式检查它以进行修改，并将其放到ES中，以便对iff进行索引。问: ES是否在内部跟踪文档校验和，以查看它是否需要重新

浏览 1提问于2016-11-22得票数 1

1回答

SQLite+FMDB:多个数据库的并行查询

sqlite、parallel-processing、fmdb

假设我有N个SQLite数据库，每个数据库都在自己的文件中。它们有完全相同的模式，但数据集不同。我想编写单个应用程序，它可以以并行的方式查询每个数据库，然后对接收到的数据执行一些操作。因此，我想知道SQLite是否允许同时打开和操作多个独立的数据库连接；( 2) FMDB支持这样的操作模式。

浏览 5提问于2017-01-20得票数 0

2回答

如何导出大型Neo4j数据集以自动化方式进行分析

apache-spark、neo4j、cypher、bigdata

所有节点和边缘都具有5到10个元数据属性。每天，我们将所有客户的数据从Neo4j导出到一系列执行业务逻辑的python流程。我们目前运行在一个具有

浏览 0提问于2018-05-01得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

java.io.IOException:在Pyspark中写入大文件时流已损坏

用Informatica从Terdata摄取数据到Hadoop的最佳方法是什么？

OpenBSD支持并行内核访问吗？

询问有关本体和图数据库的问题

Bigtable数据触发器/监视

Kafka JDBC连接器加载所有数据，然后递增

非解析索引全表扫描的寻呼性能

Elasticsearch索引策略创建最佳实践/性能

在索引时合并来自不同源的数据

源Vs PTransform

并行调用mysql数据库时的注意事项

SQLite做了太多的小型磁盘读取

云数据融合与DataFlow的差异分析

用GCP数据流和从GCS中异常缓慢地读取

额外的索引是否会加剧锁争用？

CPU影响，扫描计数9，逻辑读取1686，物理读取0 vs扫描计数1，逻辑读取10253，物理读取20。

如果我再次将相同的文档放到ElasticSearch中，它会重新索引它吗？

SQLite+FMDB:多个数据库的并行查询

如何导出大型Neo4j数据集以自动化方式进行分析

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐