文件上传

直接上传 PDF、Word、图片等文件到 PuppyOne。

支持的文件类型

类型	格式	处理方式
文档	PDF, DOCX, DOC	文本提取 + 结构化
表格	XLSX, CSV	转换为 JSON 数组
图片	PNG, JPG, JPEG	OCR 文字识别
文本	TXT, MD, JSON	直接导入

上传步骤

Step 1: 开始导入

进入你的 Project
点击 Import → Upload Files

Step 2: 选择文件

你可以：

拖拽文件到上传区域
点击选择本地文件
批量上传多个文件

Step 3: 等待处理

上传后，PuppyOne 会自动：

解析：提取文本内容（PDF 用文本提取，图片用 OCR）
清洗：去除页眉页脚、格式噪音
结构化：转换为 JSON 格式

处理进度可在 Tasks 面板查看。

数据结构示例

PDF 文档 → JSON

{
  "filename": "产品手册.pdf",
  "pages": 15,
  "content": "# 产品概述\n\n本产品是一款...\n\n## 技术规格\n\n- 尺寸：10 x 5 x 3 cm\n- 重量：250g",
  "metadata": {
    "author": "张三",
    "created_at": "2024-01-10"
  }
}

图片 (OCR) → JSON

{
  "filename": "发票.jpg",
  "ocr_text": "发票号码：INV-2024-001\n日期：2024-01-15\n金额：￥1,234.56",
  "confidence": 0.95
}

Excel → JSON

{
  "filename": "销售数据.xlsx",
  "sheets": [
    {
      "name": "Sheet1",
      "rows": [
        {"日期": "2024-01", "销售额": 10000},
        {"日期": "2024-02", "销售额": 12000}
      ]
    }
  ]
}

处理选项

PDF 处理

选项	说明
保留分页	按页面分割内容
提取表格	识别 PDF 中的表格
提取图片	OCR 处理 PDF 中的嵌入图片

OCR 设置

选项	说明
语言	中文 / 英文 / 自动检测
预处理	图片增强（提高识别率）

处理模式

PuppyOne 提供两种文件处理模式：

模式	说明	适用场景
raw	原始模式，直接存储文件内容	JSON、Markdown 等已结构化的文件
ocr_parse	OCR 解析模式，提取文本并结构化	PDF、图片等需要文字识别的文件

存储结果对比

不同文件类型在不同处理模式下的存储结果：

场景	mode	文件类型	type	preview_type	preview_json	preview_md	s3_key
上传 `data.json`	raw	json	json	json	✓	-	-
上传 `data.json`	ocr_parse	json	json	json	✓	-	-
上传 `readme.md`	raw	text	markdown	markdown	-	✓	-
上传 `readme.md`	ocr_parse	text	markdown	markdown	-	✓	-
上传 `doc.pdf`	raw	binary	file	NULL	-	-	✓
上传 `doc.pdf`	ocr_parse	ocr_needed	file→markdown	NULL→markdown	-	✓ (OCR后)	✓ (原始)
上传 `image.jpg`	raw	binary	file	NULL	-	-	✓
上传 `image.jpg`	ocr_parse	ocr_needed	file→markdown	NULL→markdown	-	✓ (OCR后)	✓ (原始)
上传 `video.mp4`	raw	binary	file	NULL	-	-	✓
上传 `video.mp4`	ocr_parse	binary	file	NULL	-	-	✓

字段说明

字段	说明
type	文件的原始类型标识
preview_type	预览内容的格式（json / markdown / NULL）
preview_json	结构化 JSON 内容，用于直接查询
preview_md	Markdown 格式内容，用于展示和 Agent 读取
s3_key	原始文件的 S3 存储路径（二进制文件）

处理逻辑说明

JSON / Markdown 文件：无论使用哪种模式，都直接解析内容，不需要 OCR
PDF / 图片：
- raw 模式：仅存储原始文件到 S3，不做解析
- ocr_parse 模式：保留原始文件到 S3 + OCR 提取文本存入 preview_md
视频等二进制文件：仅存储到 S3，不支持内容解析

文件大小限制

计划	单文件限制	总存储
Free	10 MB	100 MB
Pro	50 MB	10 GB
Team	100 MB	无限制

使用场景

场景一：产品手册

上传 PDF 产品手册，让客服 Agent 可以回答产品规格问题。

场景二：发票识别

上传发票图片，OCR 提取关键信息，供财务 Agent 使用。

场景三：数据报表

上传 Excel 报表，转换为 JSON 后供分析 Agent 查询。

常见问题

OCR 识别不准确？

确保图片清晰、分辨率足够
尝试手动选择语言而非自动检测
对于复杂排版，可能需要手动校正

PDF 提取的格式乱了？

某些 PDF 使用复杂排版，提取后可能需要在编辑器中手动调整。

下一步

数据库连接网页爬取