AI Content Harvester

任务名称

来源域名

目标站点

该任务采集到的文章默认会发送到这里选择的目标站点。图片存储方式会继承目标站点配置。

选择要发送的 WordPress 站点

请先到 WordPress 站点页面配置目标站点。

翻页策略

分页模板

起始页

结束页

步长

连续空页停止

列表页起始 URL

采集器会从这些列表页开始发现文章详情链接。每行填写一个 URL。保存后再次编辑应自动回显。

列表页文章链接 Selector（用于批量发现详情页）

详情页 Selector

建议先选择列表页文章链接，系统会自动带出详情页 URL。

详情页标题 Selector

详情页正文 Selector

正文截断规则（可选）

配置正文截断标记，在清洗后的 HTML 中遇到匹配项时，后续内容将被移除。留空则不启用截断。

文本截断标记

当元素文本包含任一关键词时，在此元素之前截断正文。每行填写一个标记词。

图片截断标记

当图片的 src 或 alt 属性包含任一关键词时，在此图片之前截断正文。每行填写一个标记词。

请求间隔（秒）

间隔越短越容易被目标站限制，建议 1-3 秒。

单次最多采集文章数

防止一次任务采集过多文章，建议测试阶段设为 3。

遵守 robots.txt（推荐开启，关闭可能有合规风险）

采集模式

普通站点建议 HTTP；遇到 JS challenge / 403 可尝试浏览器渲染。

模板模式适合固定分页 URL，下一页模式适合 WordPress 列表页的自动翻页批量采集。系统会去重详情链接，缺少下一页或达到连续空页阈值时自动停止。

AI 处理默认方式

默认建议人工审核后发送，避免 AI 结果未经检查直接进入草稿箱。

人工审核后发送（推荐）自动处理并推送 WordPress 草稿（只推草稿，不公开发布）