
车险保单作为法律文件,包含以下关键信息:
这些信息的准确识别是AI技术的核心目标。



# 安装依赖:pip install paddleocr pillow
from paddleocr import PaddleOCR
import re
# 初始化OCR引擎(自动下载预训练模型)
ocr = PaddleOCR(use_angle_cls=True, lang="ch")
def parse_insurance(image_path):
# OCR识别
result = ocr.ocr(image_path, cls=True)
all_text = " ".join([line[1][0] for line in result])
# 信息抽取
info = {
"policy_no": re.search(r'保单号[::]\s*(\w+)', all_text).group(1),
"amount": re.search(r'保额[::]\s*([\d,]+)元', all_text).group(1),
"valid_date": re.search(r'有效期至[::](\d{4}-\d{2}-\d{2})', all_text).group(1)
}
return info
# 使用示例
policy_info = parse_insurance("policy_scan.jpg")
print(f"识别结果:{policy_info}")# 进阶示例 - 使用版面分析
from paddleocr import LayoutAnalysis
layout_engine = LayoutAnalysis()
layout_result = layout_engine.detect(image_path)
# 只识别关键区域(如被保险人信息区块)
for region in layout_result:
if "insured_info" in region['label']:
crop_img = image.crop(region['bbox'])
print(ocr.ocr(crop_img))
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。