MinerU:开源高质量数据提取工具,支持PDF/网页/多格式电子书提取

40次阅读
没有评论

MinerU:开源高质量数据提取工具,支持 PDF/ 网页 / 多格式电子书提取

MinerU 是一款由上海人工智能实验室 OpenDataLab 团队开发的开源高质量数据提取工具,专注于从复杂 PDF 文档、网页和电子书中高效提取内容。它能够将包含图片、公式和表格的多模态 PDF 转化为 Markdown 格式(如 markdown、json),且具备高精度解析工具链,支持多种输入模型,支持自动识别乱码、转换公式为 LaTex、保留文档结构,支持 176 种语言的准确识别,适用于学术、财务、法律等领域,兼容 Windows/Linux/Mac 平台。

开源地址:https://github.com/opendatalab/MinerU

正文完
 0
老马
版权声明:本站整理文章,由 老马 于2024-08-24发表,共计265字。
转载说明:本站提供的一切软件、教程、电子书、视频、图片、音乐、文字以及所有内容信息仅供个人学习、研究或欣赏;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网友分享及网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢相关内容信息,请支持正版,进行购买注册,以得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!侵删请致信E-mail:tntwl@qq.com
评论(没有评论)