通用文字识别(含位置)

视频示例

待上线

描述

通用文字识别(含位置)

配置项说明

OCR引擎

通过【AI引擎】选择【创建AI引擎】创建的对象(影刀/百度/腾讯/阿里云)或选择内置的影刀引擎

OCR版本

  • 百度
    • 标准版
    • 高精度版
  • 影刀、腾讯
    • 标准版
    • 高精度版
    • 精简版
    • 高速版
  • 阿里云
    • 标准版
    • 高精度版

图像源

屏幕/窗口对象/当前激活窗口/本地硬盘图片/剪切板/网络图片

窗口对象

可通过指令"获取窗口对象"得到

提取区域(支持图像源为【屏幕/窗口对象/当前激活窗口】)

  • 全部
  • 指定部分区域:按下CTRL+ALT+X开始截取提取区域

图片路径

图像源选择【本地硬盘图片】时,在此处选择图像路径

图片URL

图像源选择【网络图片】时,在此处填写图像的网络地址

高级

  • 转为dpi为96对应值 该状态框决定了是否需要将位置坐标值转换成与设备无关的单位(每个单位1/96英寸,适用于多台电脑共用该指令)

  • 阿里云

    • 文字最小高度:图片中文字的最小高度,单位像素
    • 输出文字框的概率:是否输出文字框的概率
    • 输出文字框角点:是否输出文字框角点
    • 跳过文字检测:是否跳过文字检测步骤直接进行文字识别
    • 关闭文字行方向预测:是否关闭文字行方向预测
    • 获取每一行的置信度:是否需要识别结果中每一行的置信度,默认不需要
    • 单字识别:是否需要单字识别功能,默认不需要
    • 自动旋转:是否需要自动旋转功能,默认不需要
    • 表格识别:是否需要表格识别功能,默认不需要
    • 字块返回顺序:字块返回顺序,false表示从左往右,从上到下的顺序,true表示从上到下,从左往右的顺序,默认false
  • 百度
    • 检测朝向:是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true:检测朝向, false:不检测朝向
    • 检测语言:是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)
    • 输出段落信息:是否输出段落信息
    • 获取每一行的置信度:是否需要识别结果中每一行的置信度,默认不需要
  • 影刀、腾讯
    • 开启PDF识别:是否开启PDF识别,默认值为false,开启后可同时支持图片和PDF的识别
    • PDF页码:需要识别的PDF页面的对应页码,仅支持PDF单页识别,当上传文件为PDF且IsPdf参数值为true时有效,默认值为1

使用示例

此流程执行逻辑:创建影刀AI引擎 --> 识别屏幕上的文字

执行结果

问题没有解决?去社区提问 all right reserved,powered by Gitbook

results matching ""

    No results matching ""