Unstructured.io
💻

Unstructured.io

Unstructured.io 是 LLM 文档预处理框架,支持将 PDF、HTML、Word、图片等多种格式的非结构化数据解析并分块为 LLM 可用的结构化格式。

💻 编程 🆓 免费 ★★★★★
访问官网
核心功能
  • 多格式文档解析
  • 智能分块
  • OCR识别
  • 元数据提取
  • RAG数据管道

Unstructured.io 是一个开源的文档预处理框架,专为 LLM 和 RAG 应用设计,解决非结构化数据处理难题。

核心功能

  • 多格式解析:支持 PDF、HTML、Word、PowerPoint、图片等多种格式
  • 智能分块:根据文档结构自动分割为合理的文本块
  • OCR 识别:内置 OCR 引擎处理扫描文档
  • 元数据提取:保留文档结构、表格、图片位置等信息
  • RAG 集成:与 LangChain、LlamaIndex 等框架无缝集成

适用场景

  • RAG 知识库文档处理
  • 企业文档数字化
  • PDF 数据提取与清洗
  • 为 LLM Agent 准备上下文数据