中文
数据连接
文件上传

文件上传

直接上传 PDF、Word、图片等文件到 PuppyOne。


支持的文件类型

类型格式处理方式
文档PDF, DOCX, DOC文本提取 + 结构化
表格XLSX, CSV转换为 JSON 数组
图片PNG, JPG, JPEGOCR 文字识别
文本TXT, MD, JSON直接导入

上传步骤

Step 1: 开始导入

  1. 进入你的 Project
  2. 点击 ImportUpload Files

Step 2: 选择文件

你可以:

  • 拖拽文件到上传区域
  • 点击选择本地文件
  • 批量上传多个文件

Step 3: 等待处理

上传后,PuppyOne 会自动:

  1. 解析:提取文本内容(PDF 用文本提取,图片用 OCR)
  2. 清洗:去除页眉页脚、格式噪音
  3. 结构化:转换为 JSON 格式

处理进度可在 Tasks 面板查看。


数据结构示例

PDF 文档 → JSON

{
  "filename": "产品手册.pdf",
  "pages": 15,
  "content": "# 产品概述\n\n本产品是一款...\n\n## 技术规格\n\n- 尺寸:10 x 5 x 3 cm\n- 重量:250g",
  "metadata": {
    "author": "张三",
    "created_at": "2024-01-10"
  }
}

图片 (OCR) → JSON

{
  "filename": "发票.jpg",
  "ocr_text": "发票号码:INV-2024-001\n日期:2024-01-15\n金额:¥1,234.56",
  "confidence": 0.95
}

Excel → JSON

{
  "filename": "销售数据.xlsx",
  "sheets": [
    {
      "name": "Sheet1",
      "rows": [
        {"日期": "2024-01", "销售额": 10000},
        {"日期": "2024-02", "销售额": 12000}
      ]
    }
  ]
}

处理选项

PDF 处理

选项说明
保留分页按页面分割内容
提取表格识别 PDF 中的表格
提取图片OCR 处理 PDF 中的嵌入图片

OCR 设置

选项说明
语言中文 / 英文 / 自动检测
预处理图片增强(提高识别率)

处理模式

PuppyOne 提供两种文件处理模式:

模式说明适用场景
raw原始模式,直接存储文件内容JSON、Markdown 等已结构化的文件
ocr_parseOCR 解析模式,提取文本并结构化PDF、图片等需要文字识别的文件

存储结果对比

不同文件类型在不同处理模式下的存储结果:

场景mode文件类型typepreview_typepreview_jsonpreview_mds3_key
上传 data.jsonrawjsonjsonjson--
上传 data.jsonocr_parsejsonjsonjson--
上传 readme.mdrawtextmarkdownmarkdown--
上传 readme.mdocr_parsetextmarkdownmarkdown--
上传 doc.pdfrawbinaryfileNULL--
上传 doc.pdfocr_parseocr_neededfile→markdownNULL→markdown-✓ (OCR后)✓ (原始)
上传 image.jpgrawbinaryfileNULL--
上传 image.jpgocr_parseocr_neededfile→markdownNULL→markdown-✓ (OCR后)✓ (原始)
上传 video.mp4rawbinaryfileNULL--
上传 video.mp4ocr_parsebinaryfileNULL--

字段说明

字段说明
type文件的原始类型标识
preview_type预览内容的格式(json / markdown / NULL)
preview_json结构化 JSON 内容,用于直接查询
preview_mdMarkdown 格式内容,用于展示和 Agent 读取
s3_key原始文件的 S3 存储路径(二进制文件)

处理逻辑说明

  1. JSON / Markdown 文件:无论使用哪种模式,都直接解析内容,不需要 OCR
  2. PDF / 图片
    • raw 模式:仅存储原始文件到 S3,不做解析
    • ocr_parse 模式:保留原始文件到 S3 + OCR 提取文本存入 preview_md
  3. 视频等二进制文件:仅存储到 S3,不支持内容解析

文件大小限制

计划单文件限制总存储
Free10 MB100 MB
Pro50 MB10 GB
Team100 MB无限制

使用场景

场景一:产品手册

上传 PDF 产品手册,让客服 Agent 可以回答产品规格问题。

场景二:发票识别

上传发票图片,OCR 提取关键信息,供财务 Agent 使用。

场景三:数据报表

上传 Excel 报表,转换为 JSON 后供分析 Agent 查询。


常见问题

OCR 识别不准确?

  • 确保图片清晰、分辨率足够
  • 尝试手动选择语言而非自动检测
  • 对于复杂排版,可能需要手动校正

PDF 提取的格式乱了?

某些 PDF 使用复杂排版,提取后可能需要在编辑器中手动调整。


下一步