网页爬取

从任意公开网页抓取内容导入 PuppyOne。

工作原理

PuppyOne 使用 Firecrawl (opens in a new tab) 抓取网页内容：

输入 URL
Firecrawl 渲染页面（支持 JavaScript）
提取正文内容，转换为 Markdown
存储为 JSON

使用步骤

Step 1: 开始导入

进入你的 Project
点击 Import → URL

Step 2: 输入 URL

粘贴要抓取的网页地址：

https://example.com/docs/getting-started

Step 3: 配置爬取选项

选项	说明
爬取深度	是否跟随链接爬取子页面（1-3 层）
包含路径	只爬取匹配的路径（如 `/docs/*`）
排除路径	跳过特定路径（如 `/blog/*`）
等待时间	JS 渲染等待时间

Step 4: 开始爬取

点击 Import，等待爬取完成。

数据结构示例

{
  "url": "https://example.com/docs/intro",
  "title": "快速入门指南",
  "content": "# 快速入门\n\n欢迎使用我们的产品...\n\n## 安装\n\n```bash\nnpm install example\n```",
  "metadata": {
    "description": "产品文档首页",
    "crawled_at": "2024-01-20T10:30:00Z"
  }
}

爬取模式

单页面爬取

只抓取输入的 URL：

URL: https://docs.example.com/intro
结果: 1 个页面

多页面爬取

跟随链接抓取多个页面：

URL: https://docs.example.com
深度: 2
包含路径: /docs/*
结果: 所有 /docs/ 下的页面

配置示例

爬取整个文档站

URL: https://docs.example.com
深度: 3
包含: /docs/*, /guides/*
排除: /blog/*, /changelog/*

只爬取单个页面

URL: https://example.com/pricing
深度: 0  # 不跟随链接

使用场景

场景一：竞品文档

爬取竞品公开文档，让 Agent 可以进行对比分析。

场景二：技术文档

爬取框架/库的官方文档，作为研发 Agent 的参考资料。

场景三：产品页面

爬取自家产品的公开页面，保持 Agent 知识库与官网同步。

限制说明

限制	说明
只支持公开页面	需要登录的页面无法爬取
有速率限制	每分钟最多爬取 100 页
部分网站会屏蔽	某些网站有反爬机制

常见问题

爬取结果是空的？

检查 URL 是否正确
该页面可能需要登录
该网站可能有反爬保护

内容格式混乱？

某些复杂页面（如大量动态内容）提取效果可能不理想，可以尝试增加「等待时间」让 JS 完全渲染。

能爬取需要登录的页面吗？

目前不支持。建议使用该平台提供的 API 或导出功能。

下一步

文件上传本地文件夹同步