Chunkr：开源基于视觉模型的PDF数据提取工具

62次阅读

Chunkr 是一个开源基于视觉模型的 PDF 数据提取工具，专注于文档布局分析、OCR 和分块处理。它能够将 PDF、DOC、PPT 和 XLS 文件转换为适用于 RAG（检索增强生成）和 LLM（大语言模型）的结构化数据。Chunkr 使用先进的视觉模型和 OCR 技术，提取文档中的边界框和结构化文本，支持文本、表格、图像和手写内容的处理。由 Lumina AI Inc. 维护，支持 GPU 和 CPU 环境，提供免费试用和定价方案。

开源地址：https://github.com/lumina-ai-inc/chunkr

正文完

PDF数据提取工具

发表至：值得一看开源项目

2024-10-13

转载说明：本站提供的一切软件、教程、电子书、视频、图片、音乐、文字以及所有内容信息仅供个人学习、研究或欣赏；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网友分享及网络收集整理，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢相关内容信息，请支持正版，进行购买注册，以得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！侵删请致信E-mail：tntwl@qq.com

电费计算器：一款在线计算电费的小工具

祛水印：在线去水印工具

zfbdzc：在线支付宝到账音效生成器

M3U8在线播放器：一款基于腾讯云播放SDK开发的m3u8在线播放器

奇趣网站收藏家：随机发现一些冷门、有趣的网站

WebCamera：基于WebRTC的点对点网络摄像头实时监控工具

Markdown to Word：一个免费的在线Markdown转Word转换工具

短途旅行：一个唯美的网页游戏

米卡实占塔罗初阶课

DeskPad：开源macOS屏幕共享的虚拟显示器