Skip to Content
👋 嘿,欢迎使用 Auto Engine! 我们已经发布最新Beta版本 0.2.0 了解详情
使用文档基本概念Node(节点)

Node 是什么?

Node 是流水线中最小的执行单元,负责把“鼠标移动、点击、键盘输入、图像识别”等具体动作落实到真实环境中。每一个 node 聚焦于一个可验证的交互,让自动化流程能够像真人一样操作桌面或应用。

Node 的职责

  • 接收输入:读取上下文或全局变量,例如目标坐标、文字内容、识别模板。
  • 执行动作:按照配置完成鼠标移动/点击、键盘输入或图像识别等操作。
  • 产出结果:把识别到的坐标、执行日志、成功/失败状态写回上下文,供下游节点判断。

关键交互能力

鼠标移动

  • 支持绝对坐标、相对坐标或依据图像识别结果计算的坐标。
  • 可设置移动速度、轨迹、停留时间,用于悬停、拖拽、模拟人类操作。

鼠标点击

  • 覆盖单击、双击、右键等模式,配合等待策略确保界面元素渲染完成后再点击。
  • 可与图像识别或坐标计算联动,实现“先识别按钮,再点击”的链路。

键盘输入

  • 发送字符流、组合键(如 Ctrl+S)、功能键(如 EnterEsc)等。
  • 支持逐字敲入或粘贴方式,可与表单、终端、富文本编辑器配合。

图像识别

  • 通过模板匹配或 OCR 找到按钮、图标、文本区域,为鼠标/键盘动作提供定位依据。
  • 可设置相似度阈值、区域限制、重试次数,提升识别成功率。

常见 Node 类型

  • 鼠标事件节点:将移动、点击、拖拽等组合在一起,可指定坐标、延迟和点击方式,常用来点按钮、拖滑块或打开菜单。
  • 键盘事件节点:负责文本输入、快捷键和功能键,适合填写表单、执行命令或在终端中发送指令。
  • 图像识别节点:通过模板匹配/OCR 寻找元素位置,也能截取内容回写上下文,是没有 DOM/控件环境下的定位关键。
  • 复合动作节点:把“识别 → 移动 → 点击 → 输入”这种固定顺序封装在一个节点里,减少配置量。
  • 开始节点:明确流水线的入口,方便统计执行耗时与状态。
  • 等待节点(TimeWait):在继续执行前挂起一段时间,适合异步加载、审批等场景。

配置 Node 时要关注哪些内容?

  1. 运行镜像/环境:决定依赖、权限与资源配额。
  2. 输入输出映射:确定需要的变量名称,以及返回值如何写入上下文。
  3. 可观测性:设置日志等级、指标上报、必要的告警钩子。

设计 Node 的最佳实践

  • 每个 node 只做一件事,逻辑过多时拆分为多个节点。
  • 保持幂等:即使重试也不会产生副作用,便于自动恢复。
最后更新于: