网页爬取
从任意公开网页抓取内容导入 PuppyOne。
工作原理
PuppyOne 使用 Firecrawl (opens in a new tab) 抓取网页内容:
- 输入 URL
- Firecrawl 渲染页面(支持 JavaScript)
- 提取正文内容,转换为 Markdown
- 存储为 JSON
使用步骤
Step 1: 开始导入
- 进入你的 Project
- 点击 Import → URL
Step 2: 输入 URL
粘贴要抓取的网页地址:
https://example.com/docs/getting-startedStep 3: 配置爬取选项
| 选项 | 说明 |
|---|---|
| 爬取深度 | 是否跟随链接爬取子页面(1-3 层) |
| 包含路径 | 只爬取匹配的路径(如 /docs/*) |
| 排除路径 | 跳过特定路径(如 /blog/*) |
| 等待时间 | JS 渲染等待时间 |
Step 4: 开始爬取
点击 Import,等待爬取完成。
数据结构示例
{
"url": "https://example.com/docs/intro",
"title": "快速入门指南",
"content": "# 快速入门\n\n欢迎使用我们的产品...\n\n## 安装\n\n```bash\nnpm install example\n```",
"metadata": {
"description": "产品文档首页",
"crawled_at": "2024-01-20T10:30:00Z"
}
}爬取模式
单页面爬取
只抓取输入的 URL:
URL: https://docs.example.com/intro
结果: 1 个页面多页面爬取
跟随链接抓取多个页面:
URL: https://docs.example.com
深度: 2
包含路径: /docs/*
结果: 所有 /docs/ 下的页面配置示例
爬取整个文档站
URL: https://docs.example.com
深度: 3
包含: /docs/*, /guides/*
排除: /blog/*, /changelog/*只爬取单个页面
URL: https://example.com/pricing
深度: 0 # 不跟随链接使用场景
场景一:竞品文档
爬取竞品公开文档,让 Agent 可以进行对比分析。
场景二:技术文档
爬取框架/库的官方文档,作为研发 Agent 的参考资料。
场景三:产品页面
爬取自家产品的公开页面,保持 Agent 知识库与官网同步。
限制说明
| 限制 | 说明 |
|---|---|
| 只支持公开页面 | 需要登录的页面无法爬取 |
| 有速率限制 | 每分钟最多爬取 100 页 |
| 部分网站会屏蔽 | 某些网站有反爬机制 |
常见问题
爬取结果是空的?
- 检查 URL 是否正确
- 该页面可能需要登录
- 该网站可能有反爬保护
内容格式混乱?
某些复杂页面(如大量动态内容)提取效果可能不理想,可以尝试增加「等待时间」让 JS 完全渲染。
能爬取需要登录的页面吗?
目前不支持。建议使用该平台提供的 API 或导出功能。