"2023-11-19 22:28:33,720:4334(0x7f7bd11a0700):ZOO_ERROR@handle_socket_error_msg@1815: Socket [175.27.223.130:2118] zk retcode=-4, errno=112(Host is down): failed while receiving a server response", "2023-11-19 22:28:34,500:4334(0x7f7bd11a0700):ZOO_ERROR@handle_socket_error_msg@1815: Sock
我试图在Python中创建一个类,它将存储一些文本文档以及每个文档的一些元数据。想想这样的结构:
ID Text Date Followers
1 "This is a tweet" 10/21/14 57
2 "This is another tweet" 10/22/14 100
3 "Yet another" 10/23/14 3899
4 "Another one
最初的任务可以这样描述:我需要删除庞大的列表(可能有数十亿个项目),而不存储原始项目--这简直是负担不起的
我只需要知道一个问题的答案:“我的系统以前见过这个元素吗?”
到目前为止,我所能找到的最接近的数据结构是一个布卢姆过滤器,但是它有假阳性,这在我的任务中最好避免,因为它会导致数据丢失。
例如,提供i帐户来存储至少2^32项,并且肯定错误率仅为1% (这意味着我需要至少访问所有urls的1%)。
n = 4,294,967,296, p = 0.01 (1 in 100) → m = 41,167,512,262 (4.79GB), k = 7
4.79GB内存..。
任务本身是一个高规模
2023-11-19 20:06:02,024 [myid:0] - ERROR [main:QuorumPeer@294] - Setting LearnerType to PARTICIPANT but 0 not in QuorumPeers.
2023-11-19 20:06:02,027 [myid:0] - ERROR [main:QuorumPeerMain@92] - Unexpected exception, exiting abnormally
java.lang.RuntimeException: My id 0 not in the peer list
at
函数cutPoints在Dolphindb中的使用
我在下面的语句中使用了函数cutPoints:
symbols = array(SYMBOL, 0, 100)
symbols = symbols.distinct().sort!().append!("999999");
symRanges = symbols.cutPoints(100)
但是发生了错误:
binNum is larger than the number of data points.