我想要分析具有相似数据的表,这些表的结构不同,并且标题也可能略有不同。
为了从表中收集所有数据,总结它们,我面临着几个问题。
步骤1:查找标题关键字。搜索"cars==cars“是否是不可能的,因为标题可能显示为"car”、"Car“或"Cars”。也有可能这个词有拼写错误。因此,遍历所有可能性也可能导致false。当我寻找这个问题的解决方案时,我发现了模糊逻辑,但我会对其他方法表示感谢。
步骤2:我在表中找到了所需的关键字,但我如何知道相关数据放在哪里?它可以在它的下面,也可以在它旁边的右单元格。有没有方法可以获得关于表的一般结构的信息?
发布于 2018-11-08 17:03:14
步骤a(第1部分)-简单的实现应该是字典距离(因为你想要处理打字错误)
步骤a(第2部分)-使用同义词数据库/同义词词典查找名称相似的列
步骤b(第1部分)-数据以与标头相同的方式对齐-因此,如果标头垂直对齐,那么数据也将垂直对齐
步骤b(第2部分)-相似的数据将具有相似的数据类型(原始字符串、数字、邮政编码),通过向右和向下检查,您可以检测出哪个是真正的方向。
https://stackoverflow.com/questions/53204936
复制相似问题