我有一个DataFrame,其中包含一个带有字符串的列。我想找到类似的字符串,并用一些标志来标记它们。我正在使用python-Levenshtein模块中的函数,并希望将比率大于0.90的字符串标记为“相似”。以下是我拥有的DataFrame的一个示例: (0, "Hi I heard about Spark"),&qu
我有一个小表(2k )记录和一个大表(5mil)记录,我需要从小表中获取所有数据,并且只从大表中匹配数据,为了实现这一点,我执行了下面的查询select /*+ broadcast(small)*/ small.* From small left outer join large,虽然查询返回正确的结果,但是当我检查查询计划时,它显示了排序合并广播散列连接。有什么限制,如果小桌子是左表,我们不能广播,然后是什么出路。
我正在尝试使用SQL进行搜索查询;我的页面包含一个输入字段,该字段的值被获取并简单地连接到我的SQL语句中。然后,它根据用户键入的内容返回结果;在本例中是Georges。但是,它只查找准确键入为乔治·布朗(带's')的公司的条目。我试图做的是返回一个结果集,其中不仅包含带有Georges的条目,而且还包含George (no 's')。
有没有办法让这个搜索变得更灵活,这样它就能找到乔治和乔治的搜索结果?