训练分类模型
TextGO 支持使用机器学习模型来识别自定义文本类型。通过训练模型,你可以让 TextGO 识别任何特定模式的文本,极大地扩展其识别能力。
什么是分类模型
TextGO 使用 TensorFlow.js 在浏览器端训练和运行机器学习模型。这种方式具有以下优势:
- 无需后端:所有训练和推理都在本地完成
- 隐私安全:数据不会离开你的设备
- 实时推理:模型加载后可以快速识别文本
- 轻量级:模型体积小,加载迅速
何时使用分类模型
适合使用模型的场景
✅ 复杂的文本模式
- 难以用简单正则表达式描述的文本模式
- 存在一定变化但整体规律相似的文本
✅ 拥有足够的训练数据
- 至少需要 10-20 个正样本
- 样本能够覆盖主要的变化情况
✅ 对识别精度要求不是 100%
- 可以容忍少量误判
- 适用于模糊匹配场景
不适合使用模型的场景
❌ 简单而精确的模式
- 可以用正则表达式精确描述的情况
- 例如:电话号码、身份证号等固定格式
❌ 训练数据不足
- 只有少数几个样本
- 样本覆盖范围不全面
❌ 需要 100% 准确率
- 完全不能容忍误判
- 对准确性有严格要求的业务场景
创建分类模型
步骤 1:进入模型管理
- 打开"设置" > "分类模型"
- 点击"+"号添加新模型
步骤 2:基本信息
填写模型的基本信息:
模型名称(必填)
- 用于标识模型
- 建议使用描述性的名称
模型图标(可选)
- 点击图标选择器选择图标
- 支持内置图标库
- 支持上传自定义 SVG 图标
步骤 3:准备训练数据
训练数据是决定模型识别能力的关键。
数据格式:
- 每行一个样本
- 使用换行符分隔样本
- 支持任意类型的文本内容
样本质量要求:
- ✅ 样本应覆盖文本的主要变化情况
- ✅ 样本应包含该类文本的典型特征
- ✅ 清理样本中的无关内容
- ❌ 避免提供完全相同的样本
- ❌ 避免包含错误或无效的样本
步骤 4:配置参数
基础参数
置信度阈值 (0.0 - 1.0)
- 默认值:0.5
- 说明:模型输出的置信度需超过此阈值才判定为匹配
- 调整建议:
- 提高阈值 → 匹配更严格,减少误判率
- 降低阈值 → 匹配更宽松,提高识别率
使用分类模型
训练完成的模型会自动出现在识别类型列表中:
- 打开"快捷键设置"
- 添加一条新规则
- 在"识别类型"中选择你训练好的模型
- 配置相应的执行动作并保存