Node 是什么?
Node 是流水线中最小的执行单元,负责把“鼠标移动、点击、键盘输入、图像识别”等具体动作落实到真实环境中。每一个 node 聚焦于一个可验证的交互,让自动化流程能够像真人一样操作桌面或应用。
Node 的职责
- 接收输入:读取上下文或全局变量,例如目标坐标、文字内容、识别模板。
- 执行动作:按照配置完成鼠标移动/点击、键盘输入或图像识别等操作。
- 产出结果:把识别到的坐标、执行日志、成功/失败状态写回上下文,供下游节点判断。
关键交互能力
鼠标移动
- 支持绝对坐标、相对坐标或依据图像识别结果计算的坐标。
- 可设置移动速度、轨迹、停留时间,用于悬停、拖拽、模拟人类操作。
鼠标点击
- 覆盖单击、双击、右键等模式,配合等待策略确保界面元素渲染完成后再点击。
- 可与图像识别或坐标计算联动,实现“先识别按钮,再点击”的链路。
键盘输入
- 发送字符流、组合键(如
Ctrl+S)、功能键(如Enter、Esc)等。 - 支持逐字敲入或粘贴方式,可与表单、终端、富文本编辑器配合。
图像识别
- 通过模板匹配或 OCR 找到按钮、图标、文本区域,为鼠标/键盘动作提供定位依据。
- 可设置相似度阈值、区域限制、重试次数,提升识别成功率。
常见 Node 类型
- 鼠标事件节点:将移动、点击、拖拽等组合在一起,可指定坐标、延迟和点击方式,常用来点按钮、拖滑块或打开菜单。
- 键盘事件节点:负责文本输入、快捷键和功能键,适合填写表单、执行命令或在终端中发送指令。
- 图像识别节点:通过模板匹配/OCR 寻找元素位置,也能截取内容回写上下文,是没有 DOM/控件环境下的定位关键。
- 复合动作节点:把“识别 → 移动 → 点击 → 输入”这种固定顺序封装在一个节点里,减少配置量。
- 开始节点:明确流水线的入口,方便统计执行耗时与状态。
- 等待节点(TimeWait):在继续执行前挂起一段时间,适合异步加载、审批等场景。
配置 Node 时要关注哪些内容?
- 运行镜像/环境:决定依赖、权限与资源配额。
- 输入输出映射:确定需要的变量名称,以及返回值如何写入上下文。
- 可观测性:设置日志等级、指标上报、必要的告警钩子。
设计 Node 的最佳实践
- 每个 node 只做一件事,逻辑过多时拆分为多个节点。
- 保持幂等:即使重试也不会产生副作用,便于自动恢复。
最后更新于: