我正在进行一个iOS Swift项目,该项目获取OCR数据,然后搜索文本中的关键短语。OCR输出如下所示:
配料水,红糖,红熟
番茄浓缩物,苹果
W01CESTERSHlWSMJCE(WATERW4EGAR玉米)
糖浆,盐,香料,天然风味
大蒜粉,焦糖色,凤尾鱼
CFlSril,TAMARiN0),糖蜜,柠檬汁,
洋葱,蜂蜜,改性的TAVIOCA淀粉,
当我在绳子上寻找“玉米糖浆”时,什么也找不到。寻找“玉米”和“糖浆”确实会产生积极的结果。
我也试过
tesseract.recognizedText.stringByTrimmingCharactersInSet(NSCharacterSet.whitespaceAndNewlineCharacterSet())
都没有用。
对于如何格式化这篇文章,以便于识别“玉米糖浆”,有什么想法吗?限定词是,只有确切的短语是有用的-毕竟有玉米,玉米淀粉,枫糖浆等作为潜在的成分。
谢谢。
好的,这是有效的解决方案
'textView.text =textView.text withString:“",选项: NSStringCompareOptions.LiteralSearch,范围:0)
我以为最初的代码是在完成同样的任务。
发布于 2015-09-26 03:10:27
如果您想搜索“玉米糖浆”,您很可能需要用空格替换所有新行(理想情况下,检查双空格,用单个空格替换)。
字符识别的质量不是很好,我认为在用于搜索之前,文本应该得到更多的维护。例如,您可以将短语拆分成单个字符串的数组,然后从开始和结尾修剪空格等,也许您可以使用UITextChecker来帮助识别拼写错误的单词并修复它们.
发布于 2015-09-26 03:48:45
那是因为“玉米糖浆”,也就是你要找的绳子,和“玉米\n糖浆”不一样,“玉米糖浆”就是你的文字墙所展示的。
您可以尝试搜索“玉米\n糖浆”或“玉米\n糖浆”。
请注意,在您的图片中,“玉米\n糖浆”如何产生与您的文本墙显示的相同的结果?
另外,将"\n“替换为”“的代码可能无法工作,因为它可能是”玉米\n糖浆“,这将使它在两者之间有两个空格。

https://stackoverflow.com/questions/32793196
复制相似问题