用于非结构化文档的通用资料提取平台

简介

应科院研发用于非结构化文件的通用资料提取平台,利用光学字符识别 (OCR)以及计算机视觉技术,将文件中的文字转换为数字格式,并根据用户的要求提取有用资讯。该平台可协助金融和政府机构,自动输入银行账单、土地登记、工资证明等文件内容,从而减少拼写的错误和降低人工成本。

  • 用于非结构化文档的通用资料提取平台
完成研究日期
2020年及2021年
商品化机会
知识产权许可 -技术合作开发
解决方案
  • 传统方法需要手动将数据从文档传输到系统。
  • 过程耗时并且可能出现拼写错误,尤其是在输入包含大量数据的表格时。
  • 服务费和人工成本高。

为了解决这些问题,应科院研发了用于非结构化文件的通用信息提取平台。应用光学字符识别(OCR)引擎和各种计算机视觉技术,将文档中的文本转换为数字格式,并根据用户需求提取有用信息。该平台可帮助金融和政府机构自动输入银行对账单、土地登记、工资证明等文件。

创新技术

通用信息提取平台允许用户定义规则集,以提取非结构化文档中的信息,并将结果导出为人类或机器可读的格式。

创新要点:

  • 由用户制定规则集,定义如何提取文件的内容。
  • 提取特定关键字附近的资讯。
  • 当列名与规则集匹配时提取表格。
  • 自动工作流程,将结果导出为机器可读格式,以供进一步处理。

可在客户端安全、快速地处理机密文件。

质感设计介面使用户轻松地验证和更新信息。

主要成效
  • 简化的非结构化文档处理流程。
  • 协助金融和政府机构自动录入文件。
  • 应用计算机视觉技术提升光学字符识别(OCR)的准确性。
应用范畴
  • 非结构化文档处理
  • 自动输入数据
  • 在本地安全地处理文件

专利申请

  • 美国申请号 16/823,398, 中国申请号 202080000398.2 和香港申请号 62020017194.5
香港应用科技研究院

香港应用科技研究院(应科院)由香港特别行政区政府于2000年成立,其使命是透过应用科技研究提升香港的竞争力。应科院的主要科技研发领域可归纳于四个技术部门,包括:可信及人工智能技术、通讯技术、物联网感测与人工智能技术、集成电路及系统。而技术研发主要应用在六项重点范畴:智能城市、金融科技、新型工业化及智能制造、数码健康科技、专用集成电路及元宇宙。

查询