跳转到内容

训练分类模型

TextGO 支持使用机器学习模型来识别自定义文本类型。通过训练模型,你可以让 TextGO 识别任何特定模式的文本,极大地扩展其识别能力。

什么是分类模型

TextGO 使用 TensorFlow.js 在浏览器端训练和运行机器学习模型。这种方式具有以下优势:

  • 无需后端:所有训练和推理都在本地完成
  • 隐私安全:数据不会离开你的设备
  • 实时推理:模型加载后可以快速识别文本
  • 轻量级:模型体积小,加载迅速

何时使用分类模型

适合使用模型的场景

复杂的文本模式

  • 难以用简单正则表达式描述的文本模式
  • 存在一定变化但整体规律相似的文本

拥有足够的训练数据

  • 至少需要 10-20 个正样本
  • 样本能够覆盖主要的变化情况

对识别精度要求不是 100%

  • 可以容忍少量误判
  • 适用于模糊匹配场景

不适合使用模型的场景

简单而精确的模式

  • 可以用正则表达式精确描述的情况
  • 例如:电话号码、身份证号等固定格式

训练数据不足

  • 只有少数几个样本
  • 样本覆盖范围不全面

需要 100% 准确率

  • 完全不能容忍误判
  • 对准确性有严格要求的业务场景

创建分类模型

步骤 1:进入模型管理

  1. 打开"设置" > "分类模型"
  2. 点击"+"号添加新模型

步骤 2:基本信息

填写模型的基本信息:

模型名称(必填)

  • 用于标识模型
  • 建议使用描述性的名称

模型图标(可选)

  • 点击图标选择器选择图标
  • 支持内置图标库
  • 支持上传自定义 SVG 图标

步骤 3:准备训练数据

训练数据是决定模型识别能力的关键。

数据格式

  • 每行一个样本
  • 使用换行符分隔样本
  • 支持任意类型的文本内容

样本质量要求

  • ✅ 样本应覆盖文本的主要变化情况
  • ✅ 样本应包含该类文本的典型特征
  • ✅ 清理样本中的无关内容
  • ❌ 避免提供完全相同的样本
  • ❌ 避免包含错误或无效的样本

步骤 4:配置参数

基础参数

置信度阈值 (0.0 - 1.0)

  • 默认值:0.5
  • 说明:模型输出的置信度需超过此阈值才判定为匹配
  • 调整建议:
    • 提高阈值 → 匹配更严格,减少误判率
    • 降低阈值 → 匹配更宽松,提高识别率

使用分类模型

训练完成的模型会自动出现在识别类型列表中:

  1. 打开"快捷键设置"
  2. 添加一条新规则
  3. 在"识别类型"中选择你训练好的模型
  4. 配置相应的执行动作并保存

基于 GPLv3 开源协议发布