Unstructured.io 是一个开源的文档预处理框架,专为 LLM 和 RAG 应用设计,解决非结构化数据处理难题。
核心功能
- 多格式解析:支持 PDF、HTML、Word、PowerPoint、图片等多种格式
- 智能分块:根据文档结构自动分割为合理的文本块
- OCR 识别:内置 OCR 引擎处理扫描文档
- 元数据提取:保留文档结构、表格、图片位置等信息
- RAG 集成:与 LangChain、LlamaIndex 等框架无缝集成
适用场景
- RAG 知识库文档处理
- 企业文档数字化
- PDF 数据提取与清洗
- 为 LLM Agent 准备上下文数据