pdf-craft

将 PDF 文件转化为其他格式的开源工具。专注于扫描书籍处理,能提取正文、过滤页眉页脚、处理跨页连接,可将 PDF 转为 Markdown 或带结构的 EPUB 电子书。

主要功能:

  • 使用本地 AI 模型将 PDF 转换为 Markdown 格式,无需联网
  • 支持将 PDF 转换为带结构的 EPUB 电子书格式
  • 智能识别并过滤页眉、页脚、脚注、页码等干扰元素
  • 自动处理图表、公式,以图片形式保留在转换后的文件中
  • 结合 LLM 技术构建书籍结构,生成带目录和章节的 EPUB

https://github.com/oomol-lab/pdf-craft