文件上传
直接上传 PDF、Word、图片等文件到 PuppyOne。
支持的文件类型
| 类型 | 格式 | 处理方式 |
|---|---|---|
| 文档 | PDF, DOCX, DOC | 文本提取 + 结构化 |
| 表格 | XLSX, CSV | 转换为 JSON 数组 |
| 图片 | PNG, JPG, JPEG | OCR 文字识别 |
| 文本 | TXT, MD, JSON | 直接导入 |
上传步骤
Step 1: 开始导入
- 进入你的 Project
- 点击 Import → Upload Files
Step 2: 选择文件
你可以:
- 拖拽文件到上传区域
- 点击选择本地文件
- 批量上传多个文件
Step 3: 等待处理
上传后,PuppyOne 会自动:
- 解析:提取文本内容(PDF 用文本提取,图片用 OCR)
- 清洗:去除页眉页脚、格式噪音
- 结构化:转换为 JSON 格式
处理进度可在 Tasks 面板查看。
数据结构示例
PDF 文档 → JSON
{
"filename": "产品手册.pdf",
"pages": 15,
"content": "# 产品概述\n\n本产品是一款...\n\n## 技术规格\n\n- 尺寸:10 x 5 x 3 cm\n- 重量:250g",
"metadata": {
"author": "张三",
"created_at": "2024-01-10"
}
}图片 (OCR) → JSON
{
"filename": "发票.jpg",
"ocr_text": "发票号码:INV-2024-001\n日期:2024-01-15\n金额:¥1,234.56",
"confidence": 0.95
}Excel → JSON
{
"filename": "销售数据.xlsx",
"sheets": [
{
"name": "Sheet1",
"rows": [
{"日期": "2024-01", "销售额": 10000},
{"日期": "2024-02", "销售额": 12000}
]
}
]
}处理选项
PDF 处理
| 选项 | 说明 |
|---|---|
| 保留分页 | 按页面分割内容 |
| 提取表格 | 识别 PDF 中的表格 |
| 提取图片 | OCR 处理 PDF 中的嵌入图片 |
OCR 设置
| 选项 | 说明 |
|---|---|
| 语言 | 中文 / 英文 / 自动检测 |
| 预处理 | 图片增强(提高识别率) |
处理模式
PuppyOne 提供两种文件处理模式:
| 模式 | 说明 | 适用场景 |
|---|---|---|
| raw | 原始模式,直接存储文件内容 | JSON、Markdown 等已结构化的文件 |
| ocr_parse | OCR 解析模式,提取文本并结构化 | PDF、图片等需要文字识别的文件 |
存储结果对比
不同文件类型在不同处理模式下的存储结果:
| 场景 | mode | 文件类型 | type | preview_type | preview_json | preview_md | s3_key |
|---|---|---|---|---|---|---|---|
上传 data.json | raw | json | json | json | ✓ | - | - |
上传 data.json | ocr_parse | json | json | json | ✓ | - | - |
上传 readme.md | raw | text | markdown | markdown | - | ✓ | - |
上传 readme.md | ocr_parse | text | markdown | markdown | - | ✓ | - |
上传 doc.pdf | raw | binary | file | NULL | - | - | ✓ |
上传 doc.pdf | ocr_parse | ocr_needed | file→markdown | NULL→markdown | - | ✓ (OCR后) | ✓ (原始) |
上传 image.jpg | raw | binary | file | NULL | - | - | ✓ |
上传 image.jpg | ocr_parse | ocr_needed | file→markdown | NULL→markdown | - | ✓ (OCR后) | ✓ (原始) |
上传 video.mp4 | raw | binary | file | NULL | - | - | ✓ |
上传 video.mp4 | ocr_parse | binary | file | NULL | - | - | ✓ |
字段说明
| 字段 | 说明 |
|---|---|
| type | 文件的原始类型标识 |
| preview_type | 预览内容的格式(json / markdown / NULL) |
| preview_json | 结构化 JSON 内容,用于直接查询 |
| preview_md | Markdown 格式内容,用于展示和 Agent 读取 |
| s3_key | 原始文件的 S3 存储路径(二进制文件) |
处理逻辑说明
- JSON / Markdown 文件:无论使用哪种模式,都直接解析内容,不需要 OCR
- PDF / 图片:
raw模式:仅存储原始文件到 S3,不做解析ocr_parse模式:保留原始文件到 S3 + OCR 提取文本存入preview_md
- 视频等二进制文件:仅存储到 S3,不支持内容解析
文件大小限制
| 计划 | 单文件限制 | 总存储 |
|---|---|---|
| Free | 10 MB | 100 MB |
| Pro | 50 MB | 10 GB |
| Team | 100 MB | 无限制 |
使用场景
场景一:产品手册
上传 PDF 产品手册,让客服 Agent 可以回答产品规格问题。
场景二:发票识别
上传发票图片,OCR 提取关键信息,供财务 Agent 使用。
场景三:数据报表
上传 Excel 报表,转换为 JSON 后供分析 Agent 查询。
常见问题
OCR 识别不准确?
- 确保图片清晰、分辨率足够
- 尝试手动选择语言而非自动检测
- 对于复杂排版,可能需要手动校正
PDF 提取的格式乱了?
某些 PDF 使用复杂排版,提取后可能需要在编辑器中手动调整。