腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7185)
视频
沙龙
1
回答
用
Storehaus
存储
代数
Bloom
Filter
scala
、
apache-spark
、
redis
、
spark-streaming
、
scalding
我有一个Spark作业,它的最终输出是一个Algebird
bloom
filter
,我需要在另一个Spark作业中重用这个
bloom
filter
。有没有一种方法可以使用Twitter
Storehaus
将这个
bloom
filter
存储
在kv商店(例如: redis)中,并在其他作业中检索它(反序列化为
代数
bloom
filter
)?
浏览 9
提问于2016-07-28
得票数 2
2
回答
如果您的数据库已经使用
bloom
filter
,还值得使用
bloom
filter
吗?
postgresql
、
design-patterns
、
redis
、
rdbms
我的问题出现在使用Redis实现
bloom
filter
时,Redis有一个模块,允许您在输入set中的成员时使用
bloom
filter
。(请记住查找过程的复杂性,而不是从磁盘检索该值) 现在,使用Redis的好处是将值
存储
在内存中,当尝试检索该值时,性能比在rdbms中查找更高,因为该值
存储
在磁盘上。在我的例子中,假设我正在检查用户名是否已经存在,是否仍然值得使用带有
bloom
filter
的Redis内存解决方案,而不是仅仅使用Postgresq
浏览 3
提问于2020-04-22
得票数 2
2
回答
Bloom
Filters如何帮助确定URL是否已经爬行?
web-crawler
、
bloom-filter
我不断听到
Bloom
Filter
在web爬行中是如何有用的,特别是在确定URL是否已经被爬行时(因为
Bloom
Filter
在测试集成员资格时是内存高效的)。然而,在web爬行的
用
例中,如果遇到几乎无限数量的URL,那么位/桶的数量不是需要很多吗?尤其是,如果你是Google或一个搜索引擎,每天都在试图抓取数据。所以我的问题是,当URL的数量不断增加,而
存储
桶的数量保持不变时,
Bloom
过滤器如何帮助确定URL是否已经被爬取?
浏览 0
提问于2013-06-15
得票数 1
3
回答
leveldb/Cassandra的
bloom
过滤器对范围查询有帮助吗?
nosql
、
cassandra
、
bigtable
、
leveldb
我知道leveldb/cassandra将他们的记录
存储
在SSTable中,并在执行精确的键查询时使用
bloom
filter
来选择SSTable,他们的
bloom
filter
对键范围查询有帮助吗?
浏览 1
提问于2013-04-20
得票数 1
2
回答
Bloom
滤波器中正匹配的结果
performance
、
data-structures
、
bloom-filter
假设:当一个新用户想注册时,在大多数情况下,我的UI告诉他们“这个名字不被使用,你可以去”。告诉用户“使用中的名称,选择不同的oe”可能不是那么糟糕,但是对于其他不能出错的
用
例呢?
浏览 3
提问于2020-04-15
得票数 2
2
回答
布卢姆过滤器在卡桑德拉的作用是什么?
cassandra
、
datastax
、
datastax-enterprise
从卡桑德拉号文件的两个不同链接中,我发现: 我的问题是,上述两种说法是否都是正确的?如果是,是否分别为Memtable和SSTable维护
bloom
过滤器?提前谢谢。
浏览 2
提问于2016-09-05
得票数 12
回答已采纳
1
回答
Mongodb在不存在文档的情况下获取文档的性能
mongodb
、
bloom-filter
、
probabilistic-ds
我们在mongodb中
存储
了大量数据,比如说3000万个文档。而且这些文档并不经常被修改。有大量读取查询(约15k qps)。由于我们
用
例的性质,其中许多查询(通过_id字段)将导致空的搜索结果。我看到的另一个选择是使用应用级
bloom
filter
,但这将是另一个需要维护的部分。AFAIK HBASE支持
bloom
filter
,以查看文档是否存在。
浏览 15
提问于2021-03-24
得票数 0
1
回答
Bloom
-
filter
在Clojure中的实现
unit-testing
、
clojure
、
bloom-filter
bloom
-
filter
) bits (
bloom
-contains [
bloom
-
filter
value] (let [hash-functions (:hash-functions
bloom
-
filter
)
bloom
filte
浏览 0
提问于2018-02-07
得票数 2
2
回答
非常低概率的概率集
data-structures
、
bloom-filter
我们有一个表,假设有1000万条
存储
的tweet(每年以这个数量增长),如果一个项目出现在消防水管中,我必须删除它。我猜每100,000秒就会有一次匹配(从空气中提取一个数字)。
浏览 0
提问于2016-10-21
得票数 1
1
回答
简单BloomFilter类
java
、
cache
、
bloom-filter
我们有一些BloomFilterS (比如没有删除的java.util.set ),我们将它们
存储
在ehcache中(您可以认为它是一个java.util.Map):ccc bloomfilter (of name ccc) 如果我们调用localCacheManager.get(Constant.
BLOOM
_
FILTER
_CACHE如果我们调用localCacheManage
浏览 0
提问于2015-05-12
得票数 2
回答已采纳
1
回答
如何理解“卡桑德拉”中的
bloom
_
filter
_fp_chance和read_repair_chance
cassandra
Bloom
滤波器 When data is requested, the
Bloom
filter
checks if the row exists before doing disk I/O.
浏览 1
提问于2015-08-03
得票数 7
回答已采纳
2
回答
在Cassandra中,如何计算出表中键的大致数量?
cassandra
write latency: 0.043 ms Percent repaired: 0.0
Bloom
filter
false ratio: 0.00000
Bloom
浏览 1
提问于2019-09-17
得票数 3
1
回答
如何构建大小不适合RAM的布隆过滤器?
hadoop
、
data-structures
、
bigdata
假设我们必须在一台32 GB RAM和硬盘驱动器的机器上构建一个包含10^12个
存储
桶的
Bloom
filter
。假设密钥很小,并且已经在硬盘上。我们如何才能以一种有效的方式构建它?我的猜测是将
Bloom
filter
分成4部分(125 to /4适合32 to)。然后传递数据4次,每次在内存中散列和更新相应的切片。连接4个切片返回,以获得完整的布隆过滤器。这是正确的吗?
浏览 0
提问于2018-05-13
得票数 1
1
回答
节点工具cfstats压缩分区最大字节
cassandra
存储
到表中的数据将使用week_first_day,device_id分区键打包到每个设备的每周
存储
桶中。write latency: 0.058 ms Percent repaired: 99.83
Bloom
filter
false ratio: 0.00000 <
浏览 0
提问于2018-11-24
得票数 0
回答已采纳
1
回答
如何在Redis中使用BloomFilter
redis
什么时候在
Bloom
过滤器中添加密钥?就在密钥被添加到Redis缓存之前?如果Redis中的密钥过期,是否删除
Bloom
过滤器中的密钥? 或者读取数据库中的所有密钥,并将它们放入Blomm过滤器中?
浏览 5
提问于2022-11-21
得票数 1
回答已采纳
1
回答
如何计算布卢姆过滤百分比
algorithm
、
hadoop
我正在浏览,在
Bloom
Filter
上看到了一些解释,上面写着: 其中k是使用的哈希函数数,m是
存储
Bloom
过滤器的位数,n是要添加到
Bloom
过滤器中的元素数。例如,我们必须
存储
一个包含1000万URL (n=10,000,000)的集合。每个URL分配8位(m/n=8)将需要一个10 MB的
Bloom
过滤器(m = 80,000,000位)。如果我们要通过
浏览 0
提问于2014-12-01
得票数 0
回答已采纳
3
回答
判定集合A是否是集合B的子集的算法
algorithm
、
set
、
subset
是否有算法(最好是恒定时间)来检查集合A是否是集合B的子集?
浏览 0
提问于2012-10-06
得票数 6
9
回答
布隆过滤器的对立面?
data-structures
、
bloom-filter
因此,我正在考虑使用
Bloom
filter
来
存储
已经运行的测试。然而,
Bloom
过滤器在不安全的方面对我来说是错误的。它会给出假阳性结果。也就是说,它可能会报告我运行了一个我没有运行过的测试。虽然这在我正在工作的场景中是可以接受的,但我想知道是否有一个等同于
Bloom
filter
的测试,但在相反的方面,也就是只给出假阴性。 我粗略地浏览了一下文献,却一无所获。
浏览 1
提问于2009-03-11
得票数 64
2
回答
如何使用位图
存储
电话号码?
data-structures
、
bitmap
如何
存储
电话号码,以便有效地查询特定电话号码是否已被使用? 这是一个面试问题,我建议了许多数据结构(树,trie,压缩trie,跳过列表,
bloom
filter
),但他在寻找位图。如何使用位图
存储
电话号码?
浏览 11
提问于2014-09-16
得票数 2
点击加载更多
相关
资讯
Scrapy爬虫去重效率优化之Bloom Filter的算法的对接
HBase篇(5)-BloomFilter
大数据去重之Bloom Filter
Jeff Dean的Learned Index为传统数据库索引带来了哪些启发2
历时三个月,微博推荐引擎架构蜕变之路
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券