中文
数据连接
网页爬取

网页爬取

从任意公开网页抓取内容导入 PuppyOne。


工作原理

PuppyOne 使用 Firecrawl (opens in a new tab) 抓取网页内容:

  1. 输入 URL
  2. Firecrawl 渲染页面(支持 JavaScript)
  3. 提取正文内容,转换为 Markdown
  4. 存储为 JSON

使用步骤

Step 1: 开始导入

  1. 进入你的 Project
  2. 点击 ImportURL

Step 2: 输入 URL

粘贴要抓取的网页地址:

https://example.com/docs/getting-started

Step 3: 配置爬取选项

选项说明
爬取深度是否跟随链接爬取子页面(1-3 层)
包含路径只爬取匹配的路径(如 /docs/*
排除路径跳过特定路径(如 /blog/*
等待时间JS 渲染等待时间

Step 4: 开始爬取

点击 Import,等待爬取完成。


数据结构示例

{
  "url": "https://example.com/docs/intro",
  "title": "快速入门指南",
  "content": "# 快速入门\n\n欢迎使用我们的产品...\n\n## 安装\n\n```bash\nnpm install example\n```",
  "metadata": {
    "description": "产品文档首页",
    "crawled_at": "2024-01-20T10:30:00Z"
  }
}

爬取模式

单页面爬取

只抓取输入的 URL:

URL: https://docs.example.com/intro
结果: 1 个页面

多页面爬取

跟随链接抓取多个页面:

URL: https://docs.example.com
深度: 2
包含路径: /docs/*
结果: 所有 /docs/ 下的页面

配置示例

爬取整个文档站

URL: https://docs.example.com
深度: 3
包含: /docs/*, /guides/*
排除: /blog/*, /changelog/*

只爬取单个页面

URL: https://example.com/pricing
深度: 0  # 不跟随链接

使用场景

场景一:竞品文档

爬取竞品公开文档,让 Agent 可以进行对比分析。

场景二:技术文档

爬取框架/库的官方文档,作为研发 Agent 的参考资料。

场景三:产品页面

爬取自家产品的公开页面,保持 Agent 知识库与官网同步。


限制说明

限制说明
只支持公开页面需要登录的页面无法爬取
有速率限制每分钟最多爬取 100 页
部分网站会屏蔽某些网站有反爬机制

常见问题

爬取结果是空的?

  • 检查 URL 是否正确
  • 该页面可能需要登录
  • 该网站可能有反爬保护

内容格式混乱?

某些复杂页面(如大量动态内容)提取效果可能不理想,可以尝试增加「等待时间」让 JS 完全渲染。

能爬取需要登录的页面吗?

目前不支持。建议使用该平台提供的 API 或导出功能。


下一步