hbase bloomfilter_bloomfilter hbase_BloomFilter - 腾讯云开发者社区

、、

我使用HBase shell和常用的create table命令在Bigtable中创建表，您可以在其中指定压缩，这显然忽略了压缩属性。示例： hbase(main):003:0> create 'table_snappy', {NAME => 'event', VERSIONS => 1, COMPRESSION => 'SNAPPY', BLOOMFILTER => 'ROW'} hbase(main):004:0> describe 'table_snappy' Tabl

浏览 4提问于2017-05-10得票数 1

回答已采纳

2回答

配置单元-无法在Hbase存储的外部表中创建分区

、、

HBase表规范 DESCRIPTION ENABLED {NAME => 'hbase_2_hive_names', FAMILIES => [{NAME => 'age', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => true 'NONE', MIN_

浏览 2提问于2012-08-30得票数 0

1回答

显示表配置的Hbase shell命令。

、

我在HBase中创建了一个表 create 'test', 'x', 'y', 'z', {NUMREGIONS => 10, SPLITALGO => 'UniformSplit'} 当我发出describe 'test' hbase(main):016:0> describe 'test' Table test is ENABLED test COLUMN FAMILIES DESCRIPTION {NAME => 'x', BLOOMFI

浏览 13提问于2017-06-29得票数 1

1回答

在HBASE中有哪些性能改进技术？

、

它可以是在创建表的时候，也可以是在使用其他查询时，比如在表上插入、更新、删除。我知道使用像BloomFilter，BlockCache这样的选项可以产生影响。但我想知道其他可以提高整体吞吐量的技术。此外，任何人都可以展示如何在Hbase表上添加BloomFilter。我想在练习的时候试试。任何帮助都是非常感谢的。

浏览 2提问于2017-02-28得票数 0

1回答

HBase壳赋予分号的行为

我是HBase的新手。我在尝试基本的查询。和通常的SQL方式一样，每次查询后我都会给分号。查询没有运行。它只是显示了下一个提示符，好像是在等待下一部分命令。 hbase(main):016:0> create 'kau_emp', 'personal data', 'professional data'; hbase(main):017:0* hbase(main):018:0* hbase(main):019:0* 给予分号，\ /等没有帮助。按下Ctrl+C退出外壳。在网上搜索后我发现 hbase中的put语句以分号结尾，该分

浏览 0提问于2016-02-13得票数 0

2回答

无法更改HBase中的列

这是一个新手HBase的问题。我在HBase (1.2.6)中有一张桌子： hbase(main):042:0> create 'ship', 'cf1' 0 row(s) in 1.2200 seconds => Hbase::Table - ship 它是创建的： hbase(main):046:0> desc 'ship' Table ship is ENABLED ship COLUMN FAMILIES DESCRIPTION {NAME => 'cf1', BLOOMFILTER => &

浏览 6提问于2017-09-18得票数 0

回答已采纳

1回答

使用现有的常用名称的Hbase表创建Phoenix表视图

、、

根据的说法，我已经克隆了一个表，并且正在尝试为它创建一个Phoenix视图。假设我下面有两个HBase表。 hbase(main):008:0> describe 'USERINFO' Table USERINFO is ENABLED

浏览 18提问于2019-11-15得票数 0

1回答

hdfs上的Hbase表大小是实际输入文件的4倍

、

我是这个论坛和hdfs/hbase的新手。我已经在hdfs上的hbase中创建了一个表。加载的文件在windows磁盘上有1000万条记录，大小为1 1GB。在hdfs上加载文件时，hdfs中表的大小为：- root@narmada:~/agni/hdfs/hadoop-1.1.2# ./bin/hadoop fs -dus /hbase/hdfs_10M hdfs://192.168.5.58:54310/hbase/hdfs_10M 4143809619 某个plz能帮助缩小尺寸吗？表详细信息。 DESCRIPTION

浏览 1提问于2013-08-10得票数 1

1回答

HBase如何在hbase shell中描述表？

我没有找到详细告诉我HBase是如何描述这个表的来源。我找不到字段。例如： hbase(main):006:0> describe 'cdap_system:artifact.meta' Table cdap_system:artifact.meta is ENABLED cdap_system:artifact.meta, {TABLE_ATTRIBUTES => {coprocessor$1 => '/cdap/cdap/lib/coprocessor-4.3.4-1522017174177-HBASE_12_CDH57.jar|co.cask.c

浏览 0提问于2018-10-09得票数 0

1回答

hbase 0.92和opentsdb兼容性

、

我正在尝试迁移opentsdb以使用hbase 0.92，因为出于某种原因，使用分支版本的hadoop核心jar的hbase 0.90.x在任何hadoop版本上都不能很好地运行。遗憾的是，在我配置并连接了所有内容之后，我经常在hbase的日志中看到以下错误 2012-05-02 21:48:25,725 WARN org.apache.hadoop.hbase.regionserver.HRegion: No such column family in batch put org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyExcep

浏览 1提问于2012-05-03得票数 0

回答已采纳

1回答

通过Ruby语言中的MassiveRecord实现的HBase将导致中止

、、、

当使用而不是thrift将记录保存到HBase中时，我得到了一个奇怪的“中止”错误。以下代码将在Mac上重现此错误，并通过自制软件安装hbase (0.92.0和0.94.0)。 require 'massive_record' MassiveRecord::ORM::Base.connection_configuration = { :host => 'hbase' } class Woot < MassiveRecord::ORM::Table default_scope select(:data) column_family :da

浏览 0提问于2012-10-20得票数 2

回答已采纳

1回答

具有快速压缩的HBase表中的HBase获取UnsatisfiedLinkError

、、

当尝试从M/R大容量加载到启用Snappy压缩的表中时.我得到以下错误： ERROR mapreduce.LoadIncrementalHFiles: Unexpected execution exception during splitting java.util.concurrent.ExecutionException: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z at java.util.concurrent.FutureTask$Sync.

浏览 4提问于2013-10-21得票数 0

回答已采纳

1回答

HBase HBase客户端无法访问远程HBase区域服务器

、、

我已经在服务器中启动了一个独立的HBase (192.168.36.42) 客户端 package com.test; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; public class HBaseClient

浏览 0提问于2014-02-21得票数 0

1回答

HBase PerformanceEvaluation，我如何分配columnFamily和列名？

、、

我使用org.apache.hadoop.hbase.PerformanceEvaluation，Hbase已经有一个名为test的表，所以我运行hbase： org.apache.hadoop.hbase.PerformanceEvaluation --命名表=测试randomWrite 1。但不能用。在使用中，我没有找到如何分配columnFamily和列名。 java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 2804 actions:

浏览 1提问于2015-03-23得票数 0

1回答

在HBase设置行TTL

、、

我正试图在Hbase将TTL设置为一行。我无法将TTL设置为列族，因为该表已经存在，并且无法更改该表。我尝试的是在Put操作中使用函数。但这似乎不起作用，因为即使时间已经过去，当我对表进行扫描操作时，信息仍然存在。如果我在函数中放一个负值，我在表中没有任何数据，我认为这是有意义的，因为我使用的是负的ttl，因此数据根本不被存储. ( 1)你认为我在使用适当的函数吗？ 2)是否有一种方法可以在HBase中查看此信息(一行的TTL值)？编辑：这里是一个描述命令的输出(请提醒我不能更改列族的TTL值)： hbase(main):010:0> describe "Snapshot&

浏览 6提问于2016-02-20得票数 2

1回答

将事务处理到HBase失败

、、、、

我有个水槽经纪人在HBase水槽上写推文。几秒钟后，到接收器的事务就失败了，每8-10秒我就会在Flume代理日志中得到这些错误消息，告诉我HBase的事务失败了。奇怪的是，有些推文仍然通过并进入HBase表。是什么导致了这一切？这是在单个节点上运行的，会不会是资源问题？这是代理日志 9:20:44.618 PM ERROR org.apache.flume.SinkRunner Unable to deliver event. Exception follows. org.apache.flume.EventDeliveryException: Could not w

浏览 5提问于2014-03-05得票数 1

回答已采纳

2回答

将数据从一个hbase表复制到另一个

、、

我创建了一个表hivetest，它还在hbase中创建了名为“hbasetest”的表。现在，我希望使用相同的模式将“hbasetest”数据复制到另一个hbase表(例如logdata)中。所以，谁能帮我把数据从“hbasetest”复制到“logdata”而不使用蜂箱。 CREATE TABLE hivetest(cookie string, timespent string, pageviews string, visit string, logdate string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHa

浏览 0提问于2013-09-22得票数 3

回答已采纳

1回答

运行openTSDB时出错

、

按照openTSDB指南设置一个集群hbase：然后要运行TSD守护进程，我按照文档中指定的命令创建表： env COMPRESSION=NONE HBASE_HOME=path/to/hbase-0.94.X ./src/create_table.sh 它给出了以下错误： create 'tsdb-meta', {NAME => 'name', COMPRESSION => 'NONE', BLOOMFILTER => 'ROW'} ERROR: java.io.IOException: Table

浏览 0提问于2014-09-08得票数 2

3回答

禁用HBase块缓存

、、

我正在使用通过cloudera部署的apache (版本1.0.0)和凤凰(版本4.6)。由于使用group查询的聚合比较慢，所以我希望尝试禁用特定hbase表的块缓存。我尝试了几种方法，但都没能成功。我正在验证是否通过hbase describe 'my_table‘命令启用/禁用了块缓存。将cloudera控制台中的“hfile.block.cache.size”属性设置为0 alter 'myTable', CONFIGURATION => {NAME => 'myColumnFamily', BLOCKCACHE =>

浏览 5提问于2016-03-25得票数 0

3回答

Hbase CopyTable将特定列从不同的列家族复制到新表

、、、

我在Hbase "aks:myprofiles有一张桌子“ 其中有两个列族I和s 列族我有-5列{ic1,ic2,ic3,ic4,ic5} 列族的have 5列{sc1,sc2,sc3,sc4,sc5} Describe "aks:myprofiles" NAME => 'i', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => '

浏览 1提问于2017-01-19得票数 1

1回答

使用Hbase shell时，ruby (.irbrc)的保存历史记录选项不起作用

Save history目前在普通的irb (jruby) shell上工作。但由于某些原因，它在使用hbase shell时无法工作。我曾经见过在其他机器上运行hbase shell的历史，按照现在描述的相同过程，它们确实起作用了，所以我不确定这次我可能遗漏了什么小细节。我在~/.irbrc中放入了以下内容： $ cat ~/.irbrc require 'irb/ext/save-history' IRB.conf[:SAVE_HISTORY] = 100 IRB.conf[:HISTORY_FILE] = "#{ENV['HOME']}/.i

浏览 0提问于2013-06-04得票数 1

回答已采纳

2回答

如何为hbase创建外部表

、

我能够在HBase的单元中创建外部表，现在我需要创建一个具有可变列的外部表，这意味着HBase中的列不是针对特定表、列的no以及在数据插入时动态创建的，应该是处理这种情况的方法。 Summery :当HBase表中列的no不固定时，如何在单元格中创建外部表。提前谢谢。

浏览 1提问于2012-04-05得票数 3

1回答

钻取不显示配置单元或hbase表

、、

我已经创建了hbase和hive表来存储一些数据记录信息。我可以从命令行no prob查询hbase和hive。 hbase: scan MVLogger；//返回9k +记录配置单元: select * from MVLogger；//返回9k +记录我的hbase表定义是 'MVLogger', {NAME => 'dbLogData', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '

浏览 3提问于2014-11-05得票数 1

2回答

OpenTSDB:动物园管理员错误

、、、、

我是第一次在Ubuntu上安装opentsdb。下面是用于安装的文档：我在执行命令时出现了以下错误 Abharthan/opentsdb$ env COMPRESSION=NONE HBASE_HOME=/home/administrator/Abharthan/hbase-0.98.13-hadoop1 ./src/createtable.sh 安装OpenTSDB之后:我已经安装了hbase、gnuplot、JDK等。在以下方面存在一些错误：无法与动物园管理员连接对此的一些回答表明:您的动物园管理员似乎在Poort2181上已关闭/未配置，您可以从检查安装zookeepr的z

浏览 5提问于2015-07-03得票数 0

回答已采纳

1回答

在现有hbase表上的Phoenix视图可以工作，但Phoenix表不能

、、、

我是HBase和菲尼克斯的新手。我在将现有的HBase表映射到phoenix时遇到问题。我在这里的最终目的是，我应该能够更新HBase表的现有行，并使用Phoenix SQL向表中插入新行。我在HBASE中的表如下所示(它在CASEDETAILS列族下有5列)： CASES COLUMN FAMILIES DESCRIPTION {NAME => 'CASEDETAILS', BLOOMFILTER => 'NONE', VERSIONS => '2', IN_MEMORY => 'false', KEE

浏览 6提问于2018-11-16得票数 0

1回答

为什么Hbase与Hadoop映射降低性能是缓慢的？

、、

我已经将hadoop1.0.3配置在3台具有完全分布式mode.on的机器上，下面的第一台机器正在运行： 1) 4316 SecondaryNameNode 4006 NameNode 4159 DataNode 4619 TaskTracker 4425 JobTracker 2) 2794 TaskTracker 2672 DataNode 3) 3338 DataNode 3447 TaskTracker 现在，当我在上面运行简单的映射减少作业时，需要更长的时间来执行映射reducejob.So --我在Hadoop.now上安装了HBASE层--我在3个集群上有下面的HBASE进程。

浏览 1提问于2013-07-24得票数 2

1回答

简单BloomFilter类

、、

我们有一些BloomFilterS (比如没有删除的java.util.set )，我们将它们存储在ehcache中(您可以认为它是一个java.util.Map)：例如，Constant.BLOOM_FILTER_CACHE ehcache包含： key value aaa bloomfilter (of name aaa) bbb bloomfilter (of name bbb) ccc bloomfilter (of name ccc) 如果我们调用localCacheManager.get(Constant.BLOOM_FILTER_CACHE, aaa)，它将返回

浏览 0提问于2015-05-12得票数 2

回答已采纳

1回答

配置单元-HBase集成:找不到表

、、

我指的是Hive-HBase集成的。首先，我验证了HBase中没有名为ORDERS_HIVE_DUMMY的表： hbase(main):016:0> describe 'ORDERS_HIVE_DUMMY' ERROR: Failed to find table named ORDERS_HIVE_DUMMY Here is some help for this command: Describe the named table. For example: hbase> describe 't1' 然后我启动了hive shell： hdu

浏览 2提问于2013-04-19得票数 1

回答已采纳

1回答

HBase shell慢速放入几行表(独立模式)

、

我有一个Hbase 1.4.9独立模式运行在ubuntu18.04.1LTS上，内存为4GB，表“求和”几乎为空带有PUT的insert必须占用10秒或更长的时间，并在毫秒内进行了几次尝试。扫描在大多数情况下也是缓慢的。这在独立模式下正常吗？还是有一些设置我必须调整？下面是捕获并插入： hbase(main):002:0> put 'summations','row5','reading:kWh_d_0',30 0 row(s) in 20.4030 seconds 这是扫描 hbase(main):003:0> scan &#

浏览 0提问于2019-02-08得票数 0

1回答

如何移除Hbase上的配置设置？

目前我有一个表，其设置如下所示： hbase(main):020:0> describe 'my_table' Table my_table is ENABLED hdfs_storage_metadata, {CONFIGURATION =&g

浏览 37提问于2018-08-01得票数 0

1回答

伪代码到C语言的转换

、、、、

下面是我的结构 typedef struct { int k; //num of hash functions int m; //num of filter's bit int* hashSeeds; //seed of k hash functions bool* filter; //filter } BloomFilter; //Initializated as BloomFilter bloomFilter; 下面是我的函数 void bfInsertion(BloomFilter* bloomFilte

浏览 9提问于2020-12-30得票数 1

2回答

Haskell中的Bloom过滤器

、、、、

我最近在Haskell中实现了一个Bloom过滤器，虽然我对函数式编程并不陌生，但对于Haskell本身，我是一个初学者。我很乐意接受任何关于实现或代码风格的反馈。我试着坚持Haskell关于函数和变量命名的约定，但是我可能弄错了一些东西。您会注意到，我正在使用自己的Bitset实现，您可以假设它的行为像普通的那样(我当然希望如此)。 module DataStructures.BloomFilter (empty, insert, member, DataStructures.BloomFilter.null) where import System.Random (random, S

浏览 0提问于2020-03-21得票数 5

1回答

布鲁姆过滤器是单向散列吗？

我计划通过S3为其中一个客户端应用程序分发一个bloomfilter。我在这里有几个选择。允许客户端通过预先签名的URL直接从S3下载文件。通过API响应将整个bloomfilter内容响应到客户端。有人能指点解释Bloomfilter解码或解密的文档吗？如果他们能够访问Bloomfilter文件或者是单向散列，那么是否可以对Bloomfilter进行解码并获取数据呢？谢谢, 哈莱什

浏览 2提问于2018-08-08得票数 0

2回答

Python类中的main函数

、、、

我是python的新手，main()方法和类def把我搞糊涂了。我正在尝试创建一个bloom filter，但我的程序一直在终止，因为我认为我调用的东西不正确。 class BloomFilter(object): def __init__(self, numBits, numHashFunctions): self.numBits = numBits self.bitArray = [0] * numBits self.hash = bloomFilterHash(numBits, numHash

浏览 14提问于2017-02-21得票数 0

回答已采纳

1回答

Hbase大容量负载附加数据，而不是覆盖它们

、、、

实际上，我是在Mapreduce和Bulkload的帮助下将数据加载到Hbase中的，这是我用Java实现的。因此，基本上，我创建了一个Mapper并使用HFileOutputFormat2.configureIncrementalLoad (问题末尾的完整代码)来减少，我使用了一个映射器，它只从文件中读取一些字节并创建一个put。使用LoadIncrementalHFiles.doBulkLoad将数据写入Hbase。一切都很好。但可以肯定的是，当这样做时，它会覆盖Hbase中的旧值。因此，我正在寻找一种附加数据的方法，就像api工作中的追加函数一样。谢谢你的阅读，希望你们中的一些人有一个能

浏览 4提问于2017-03-03得票数 3

回答已采纳

2回答

如何修复架构x86_64错误？

、、

我现在运行omnet++ 4.6大约有6个月了。当我尝试在一些更改之后构建我的项目时：从项目中删除头文件向“包含”文件夹中添加更多文件我知道这个错误 Creating shared library: ../out/gcc-debug/src/libinet.dylib Undefined symbols for architecture x86_64: "BloomFilter::BloomFilter(unsigned long, int, unsigned long, ...)", referenced from:

浏览 5提问于2015-10-17得票数 0

回答已采纳

1回答

如何在HBase中查看3个版本的数据

、、、

我有一个包含6个列的SQL表，"row_id“、"customer_id”、"f_name“、"l_name”、"location“、"last_update_date”。 1)我已经为上面的SQL表通过SQOOP创建了一个HBase表，下面是sqoop语法 sqoop import --connect "jdbc:sqlserver://server:port;databaseName=db" --username xxx --password xxx --table xxx --hbase-table xxx --column

浏览 4提问于2017-06-13得票数 1

回答已采纳

3回答

Java:如何初始化类型化对象的列表？

、、、、

所以我一直在寻找这个问题的答案，我只是不确定它是如何工作的。我试图列出一个BloomFilter<String>对象的列表。 BloomFilter的类定义是： public class BloomFilter<E> implements Serializable { ... <E>允许用户选择进入过滤器的元素类型。在我的情况下，我需要条件。在程序的其他地方，我需要4个BloomFilter<String>对象。我的问题是:如何初始化以下行？ private static BloomFilter<String> threade

浏览 3提问于2011-08-26得票数 1

回答已采纳

1回答

如何使用PHP Stargate客户端将数据插入Hbase表

、、、、

我正在尝试安装HBase集群，并尝试通过Stargate REST接口访问数据。大多数只读函数(如列出表格、获取版本、元数据等)都工作得很好。但是，在将数据实际插入到我创建的任何表中时，我遇到了问题。这是我到目前为止所得到的…… 创建了一个包含两列的虚拟表，如下所示： $table_schema = <<<SCHEMA <TableSchema name="mytable" IS_META="false" IS_ROOT="false"> <ColumnSchema name="

浏览 1提问于2010-01-26得票数 2

回答已采纳

1回答

无法通过REST获取表数据

、、、、

我在下面的代码片段中使用菲尼克斯JDBC驱动程序创建了一个HBase表： Class.forName("org.apache.phoenix.jdbc.PhoenixDriver"); Connection conn = DriverManager.getConnection("jdbc:phoenix:serverurl:/hbase-unsecure"); System.out.println("got connection"); conn.createStatement().execute("CR

浏览 1提问于2016-06-28得票数 0

回答已采纳

1回答

布卢姆滤波器C#

、

下面是我用C#制作的布卢姆过滤器： public class BloomFilter { private BitArray PosValues = new BitArray(int.MaxValue); private BitArray NegValues = new BitArray(int.MaxValue); public void AddValue(int HashCode) { if (HashCode > 0) { PosValues[HashCode - 1] = true;

浏览 0提问于2022-11-17得票数 3

回答已采纳

1回答

使用UDF和UDA在Cassandra中实现草图

、、

我试图在Cassandra中实现一个UDF，在Cassandra中，我传递一个带有实际查询行数的参数。UDF如下所示： CREATE OR REPLACE FUNCTION hashvalue(value text, size int) RETURNS NULL ON NULL INPUT RETURNS int LANGUAGE java AS $$ return Math.abs(value.hashCode() % size); $$; 查询应该是这样的： SELECT name, hashvalues(name, (SELECT count(*) FROM test_table)

浏览 26提问于2020-04-29得票数 1

回答已采纳

2回答

如何将数据集列值传递给函数，同时使用火花筛选器和scala？

、、

我有一个操作数组，它由用户id和操作类型组成。 +-------+-------+ |user_id| type| +-------+-------+ | 11| SEARCH| +-------+-------+ | 11| DETAIL| +-------+-------+ | 12| SEARCH| +-------+-------+ 我希望筛选属于至少有一个搜索操作的用户的操作。因此，我创建了一个包含有搜索操作的用户I的布鲁姆过滤器。然后，我尝试过滤所有的操作，这取决于布卢姆过滤器的用户状态。 val df = spark.read... val sea

浏览 0提问于2018-04-16得票数 0

回答已采纳

1回答

perl持久布隆过滤器

、

我有一个运行多个perl工作进程的系统，所有这些进程都需要查找bloom filter。如果我使用标准bloom filter perl模块( Bloom::Filter或其他)，每个子进程都需要添加到bloomfilter中。有没有一种方法可以使用在多个进程之间共享的bloomfilter 我甚至需要将数据持久化到磁盘上，因为每次重新启动系统时，我都可以重用bloomfilter数据

浏览 7提问于2016-01-28得票数 2

1回答

如何从Google Guava序列化bloom filter？

、、

我正在尝试使用Google Guava的Bloom过滤器，并使用Scala对其进行序列化。创建它很简单： import com.google.common.hash.{BloomFilter,Funnels} val b = BloomFilter.create(Funnels.unencodedCharsFunnel,5e8.toLong,1e-6) 但是我不知道如何序列化它..需要一个BloomFilter.serialize方法，但没有..我遗漏了什么？ poit正在尝试将布隆过滤器转换为Array[Byte]。

浏览 17提问于2016-09-14得票数 3

2回答

Hadoop MapReduce DistributedCache用法

、、、、

我正在尝试复制Bloom筛选示例 of MapReduce Design 书。在下面，我将只显示兴趣的代码： public static class BloomFilteringMapper extends Mapper<Object, Text, Text, NullWritable> { private BloomFilter filter = new BloomFilter(); protected void setup( Context context ) throws IOException { URI[] files = Di

浏览 6提问于2015-11-25得票数 1

1回答

BloomFilter到字符串和返回

、、

我想将BloomFilter转换为String，存储它，然后从String获取它。如果我只使用字节数组，而不转换为String -一切都很好： BloomFilter<Integer> filter = BloomFilter.create( Funnels.integerFunnel(), 500, 0.01); for (int i=0; i<400; i++) { filter.put(i); } System.out.println(filter.

浏览 1提问于2020-11-10得票数 0

回答已采纳

1回答

如何获取芭乐BloomFilter的内存大小

、

找不到直接接口(即总位数，字节内存大小为total_bits / 8)。我找到的唯一方法是序列化到一个字节数组中，但这可能会占用更多的内存： BloomFilter<String> bloomFilter = BloomFilter.create(Funnels. stringFunnel(StandardCharsets.UTF_8), 100_000_000); ByteArrayOutputStream baos = new ByteArrayOutputStream(); bloomFilter.writeTo(baos);

浏览 32提问于2019-09-02得票数 2

回答已采纳

1回答

Bloom Filter的最佳配置是什么？

我正在尝试找出Bloomfilter的最佳配置。bloomfilter值应该是什么？有没有什么公式可以根据节点、数据大小、读写频率计算出最优数量？

浏览 2提问于2013-10-19得票数 0

1回答

用花期滤光器还原

、、

我想得到一个快速的近似集成员资格，基于一个字符串值函数应用于一个大型的字符串向量的星火RDD (~1B记录)。基本上，这样做的目的是将其简化为。然后，这个花蕾过滤器可以广播给工人，供他们进一步使用。更具体地说，我现在有 rdd: RDD[Vector[String]] f: Vector[String] => String val uniqueVals = rdd.map(f).distinct().collect() val uv = sc.broadcast(uniqueVals) 但是uniqueVals太大了，不太实用，我想用更小的(和已知的)大小的东西来代替它，也就是花期过滤

浏览 1提问于2015-08-03得票数 4

回答已采纳