通用文字识别(含位置)
视频示例
描述
通用文字识别(含位置)
配置项说明
OCR引擎
通过【AI引擎】选择【创建AI引擎】创建的对象(影刀/百度/腾讯/阿里云)或选择内置的影刀引擎
OCR版本
- 百度
- 标准版
- 高精度版
- 影刀、腾讯
- 标准版
- 高精度版
- 精简版
- 高速版
- 阿里云
- 标准版
- 高精度版
图像源
屏幕/窗口对象/当前激活窗口/本地硬盘图片/剪切板/网络图片
窗口对象
可通过指令"获取窗口对象"得到
提取区域(支持图像源为【屏幕/窗口对象/当前激活窗口】)
- 全部
- 指定部分区域:按下CTRL+ALT+X开始截取提取区域
图片路径
图像源选择【本地硬盘图片】时,在此处选择图像路径
图片URL
图像源选择【网络图片】时,在此处填写图像的网络地址
高级
转为dpi为96对应值 该状态框决定了是否需要将位置坐标值转换成与设备无关的单位(每个单位1/96英寸,适用于多台电脑共用该指令)
阿里云
- 文字最小高度:图片中文字的最小高度,单位像素
- 输出文字框的概率:是否输出文字框的概率
- 输出文字框角点:是否输出文字框角点
- 跳过文字检测:是否跳过文字检测步骤直接进行文字识别
- 关闭文字行方向预测:是否关闭文字行方向预测
- 获取每一行的置信度:是否需要识别结果中每一行的置信度,默认不需要
- 单字识别:是否需要单字识别功能,默认不需要
- 自动旋转:是否需要自动旋转功能,默认不需要
- 表格识别:是否需要表格识别功能,默认不需要
- 字块返回顺序:字块返回顺序,false表示从左往右,从上到下的顺序,true表示从上到下,从左往右的顺序,默认false
- 百度
- 检测朝向:是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true:检测朝向, false:不检测朝向
- 检测语言:是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)
- 输出段落信息:是否输出段落信息
- 获取每一行的置信度:是否需要识别结果中每一行的置信度,默认不需要
- 影刀、腾讯
- 开启PDF识别:是否开启PDF识别,默认值为false,开启后可同时支持图片和PDF的识别
- PDF页码:需要识别的PDF页面的对应页码,仅支持PDF单页识别,当上传文件为PDF且IsPdf参数值为true时有效,默认值为1
使用示例
此流程执行逻辑:创建影刀AI引擎 --> 识别屏幕上的文字
执行结果