在这里配置要采集的网站、列表/详情选择器、正文截断规则、采集元数据和目标站点。保存后可启动采集,采集结果会进入「我的采集任务」。
目标站点
该任务采集到的文章默认会发送到这里选择的目标站点。图片存储方式会继承目标站点配置。
请先到 WordPress 站点页面配置目标站点。
采集器会从这些列表页开始发现文章详情链接。每行填写一个 URL。保存后再次编辑应自动回显。
详情页 Selector
建议先选择列表页文章链接,系统会自动带出详情页 URL。
正文截断规则(可选)
配置正文截断标记,在清洗后的 HTML 中遇到匹配项时,后续内容将被移除。留空则不启用截断。
当元素文本包含任一关键词时,在此元素之前截断正文。每行填写一个标记词。
当图片的 src 或 alt 属性包含任一关键词时,在此图片之前截断正文。每行填写一个标记词。
间隔越短越容易被目标站限制,建议 1-3 秒。
防止一次任务采集过多文章,建议测试阶段设为 3。
普通站点建议 HTTP;遇到 JS challenge / 403 可尝试浏览器渲染。
模板模式适合固定分页 URL,下一页模式适合 WordPress 列表页的自动翻页批量采集。系统会去重详情链接,缺少下一页或达到连续空页阈值时自动停止。
AI 处理默认方式
默认建议人工审核后发送,避免 AI 结果未经检查直接进入草稿箱。