我对python很陌生,我正在运行一个fuzzywuzzy字符串,该字符串与列表中的逻辑匹配,其中包含200万条记录。代码正在运行,它也提供输出。问题是它是极其慢的。在3小时内,它只处理80行。我希望通过使其同时处理多行来加快速度。
如果它有帮助的话--我正在用16 it内存和1.9 GHz双核CPU在我的机器上运行它。
下面是我正在运行的代码。
d = []
n = len(Africa_Company) #original list with 2m string records
for i in range(1,n):
choices = Africa_Company[i+1:n]
我一直在修补IExternalizable,但我注意到一些意想不到的行为。我有这样一个类:
public function readExternal(input:IDataInput):void {
input.readObject();
input.readObject();
input.readObject();
}
public function writeExternal(output:IDataOutput):void {
output.writeObject("first string");
output.writeObje
我很穷(脏?)具有以下格式的化学品信息数据:
ID Chemicals
1701 3 Tanks - 1 - Benzoyl Chloride and 2 - Benzoflex
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1938 2 tanks - 1,100 gallons diesel & 1,100 gallons gasoline
1888
我想知道是否有一种简单的方法来检测两个字符串中的“短语”,而不是用引号。例如:
“我喜欢盒子里的杰克”和“盒子里的杰克吃得很好”
在这种情况下,"jack In the box“将被检测到。现在我可以遍历整个第一个字符串,看看它是否在第二个字符串中,而不是…然后继续缩短到较小的长度,并通过第二个字符串运行它,直到我找到"jack in the box“的3个单词匹配。但是效率不是很高。
任何帮助都是最好的--谢谢!
是否有某种散列算法可以将相似的文本文档散列为特定的散列值?
例如,
A= "This is Sample Text 1“B= "This is Sample Text 2”
A和B需要散列为相同的值。
我做了一些研究,阅读了一些关于SimHash和LSH算法的文章。Simhash会导致哈希冲突,可以使用汉明距离来定义相似度。
理想情况下,我希望“如果字符串A和字符串B相差一个可接受的相似性阈值(t < tmax),则将A和B散列为相同的散列值。”