我正在使用tessnet2,如中所描述的。
var image = new Bitmap(@"C:\OCRTest\number.jpg");
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
//@"C:\OCRTest\tessdata" contains the language package, without this the method crash a
我有一个在Visual Studio10,Windows Vista Home Premium中运行的.net控制台应用程序。我正在尝试让tessnet2示例正常工作。下面是我的代码:
Ocr ocr = new Ocr();
using (var bmp = new Bitmap(@"C:\aaa\a-nsl\Caselines\Scanned Documents\Test_Scan_04.jpg"))
{
var tessocr = new tessnet2.Tesseract();
我正在尝试用java为日语构建一个示例应用程序,它将读取图像文件,并仅输出从图像中提取的文本。我在网上发现了一个示例应用程序,它对英语运行得很完美,但不适合日语,它给出了未识别的文本,以下是我的代码:
BytePointer outText;
TessBaseAPI api = new TessBaseAPI();
// Initialize tesseract-ocr with japanees, without specifying tessdata path
if (api.Init(".", "jpn") != 0) {
我有个奇怪的问题。我得到的文字来自谷歌云视觉包含非英语字符,但它们实际上是英语字符。这是谷歌云视觉OCR的一个错误。
我得到了一个这样的角色:Héllo
Notice that é is non English character.
我想转换成simple "Hello",这样我就可以处理这个词了。
我不是在找编程答案。我只是在找方法来做这个。
任何暗示都是有用的。
谢谢!
我刚刚安装了tesseract来尝试编写python脚本。它很好,除非我尝试使用其他语言。在windows 10终端上,我试着看看它在英语中得到了什么样的结果,除了几个德语字母之外,它工作得很好。因此,我安装了一些其他语言来进行一些测试:
tesseract --list-langs
List of available languages in "C:/Program Files/Tesseract-OCR/tessdata/" (12):
chi_sim
chi_tra_vert
deu
ell
eng
equ
grc
ita
jpn
lat
osd
spa
但当我下达命令.
因此,我正在开发一个简单的移动应用程序项目(主要是为了好玩),它使用Android上的OCR库(tesseract)扫描相机图片,对文本进行一些处理,并将其返回给用户。
我想知道的是,是否有人知道以编程(或统计)的方式来判断字符串是实际的单词,还是只是胡说八道。(我现在只针对英语,FYI)
例如,OCR可能会读取图片并返回。
String returned = "The quick brown fox."
或者,它可能会读另一张图片,然后返回。
String returned = "$. _- %/ hj @;+__~"
显然,返回的第一个字符串会产生单词,而第