Parser - pdf
基本介绍
PDF 文档解析器是 Document Parser 接口的一个实现,用于将 PDF 文件内容解析为纯文本。该组件实现了 Eino: Document Parser 接口使用说明,主要用于以下场景:
- 需要将 PDF 文档转换为可处理的纯文本格式
- 需要按页面分割 PDF 文档内容
特性说明
PDF 解析器具有以下特点:
- 支持基本的 PDF 文本提取
- 可以选择按页面分割文档
- 自动处理 PDF 字体和编码
- 支持多页面 PDF 文档
注意事项:
- 目前可能不能完全支持所有 PDF 格式
- 不会保留空格和换行等格式信息
- 复杂的 PDF 布局可能会影响提取效果
使用方式
组件初始化
PDF 解析器通过 NewPDFParser
函数进行初始化,主要配置参数如下:
配置参数说明:
ToPages
:是否将 PDF 按页面分割成多个文档,默认为 false
解析文档
文档解析通过 Parse
方法实现:
解析选项:
- 支持通过
parser.WithURI
设置文档 URI - 支持通过
parser.WithExtraMeta
添加额外元数据
完整使用示例
基本使用
在 loader 中使用
可参考 Eino: Document Parser 接口使用说明 中的示例
相关文档
最后修改
January 20, 2025
: doc: eino doc update (#1214) (b324caa)