我在Google云函数https://ocr.space/ocrapi上使用这个api,这是我已经部署的函数
def ocr_space_url(request):
request_json = request.get_json()
request_args = request.args
if request_json and 'url' in request_json:
url = request_json['url']
elif request_args and 'url' in requ
我有一个ASP.NET核心应用程序。应用程序几乎没有做一些工作的助手类。每个类都有不同的签名方法。我在网上看到了很多.net核心示例,它们为每个类创建接口,然后使用DI框架注册类型。例如
public interface IStorage
{
Task Download(string file);
}
public class Storage
{
public Task Download(string file)
{
}
}
public interface IOcr
{
Task Process();
}
public cl
请允许我问一个相当新鲜的问题。到目前为止,我一直在使用像或这样的本地工具来完成这项工作,但这是相当老套的,我被敦促“迁移到google”。
设置
我有不同类型的各种文档(如JPG和PDF)的(培训)数据集,并且根据某些特性(如流行颜色、重复布局),我打算将它们分类,例如invoice type 1、invoice type 2、not an invoice。在第二步,我想OCR某些预定义的领域,每一份文件和摘录,例如公司的地址发送发票和日期。
我所设想的架构
在现代平台作为服务(),我已经建立了一个UI,我可以上传新的文件。然后,这些文件被本地存储在一个文件名为(或MongoDB)的目录中
我有个奇怪的问题。我得到的文字来自谷歌云视觉包含非英语字符,但它们实际上是英语字符。这是谷歌云视觉OCR的一个错误。
我得到了一个这样的角色:Héllo
Notice that é is non English character.
我想转换成simple "Hello",这样我就可以处理这个词了。
我不是在找编程答案。我只是在找方法来做这个。
任何暗示都是有用的。
谢谢!