Crawl4AI:开源LLM友好型Web爬虫和抓取工具

47次阅读
没有评论

Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具

Crawl4 AI是什么

Crawl4AI 是一款 开源 的 LLM 友好型 Web 爬虫工具,旨在简化异步 Web 爬取和数据提取,专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装,提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行,并能生成结构化的输出,适合各种复杂的爬取场景,工具还具备异步架构和隐私保护功能。

Crawl4AI 特点

  • 🆓 完全免费且开源
  • 🚀 性能超快,超越许多付费服务
  • 🤖 LLM 友好的输出格式(JSON、清理的 HTML、markdown)
  • 🌍 支持同时抓取多个 URL
  • 🎨 提取并返回所有媒体标签(图像、音频和视频)
  • 🔗 提取所有外部和内部链接
  • 📚 从页面中提取元数据
  • 🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子
  • 🕵️ 用户代理自定义
  • 🖼️ 截取页面截图
  • 📜 抓取前执行多个自定义 JavaScript
  • 📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出
  • 📚 各种分块策略:基于主题、正则表达式、句子等
  • 🧠 高级提取策略:余弦聚类、LLM 等
  • 🎯 CSS 选择器支持精确的数据提取
  • 📝 传递指令 / 关键字以优化提取
  • 🔒 代理支持,增强隐私和访问
  • 🔄 针对复杂的多页面爬取场景的会话管理
  • 🌐 异步架构,提高性能和可扩展性

Crawl4 AI如何安装

Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为  Python 包或使用 Docker。

使用 pip 🐍

选择最适合您需求的安装选项:

基本安装

对于基本的网页爬取和抓取任务:

pip install crawl4ai

默认情况下,这将安装 Crawl4AI 的异步版本,使用 Playwright 进行网络爬取。

👉 注意:安装 Crawl4AI 时,安装脚本应自动安装并设置 Playwright。但是,如果遇到任何与 Playwright 相关的错误,则可以使用以下方法之一手动安装它:

  1. 通过命令行:

    playwright install
  2. 如果上述方法不起作用,请尝试这个更具体的命令:

    python -m playwright install chromium

在某些情况下,第二种方法已被证明更为可靠。

同步版本安装

如果您需要使用 Selenium 的同步版本:

pip install crawl4ai[sync]

开发安装

对于计划修改源代码的贡献者:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

使用 Docker

我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化环境中运行 Crawl4AI 的简便方法。敬请期待更新!

开源地址:https://github.com/unclecode/crawl4ai

正文完
 0
老马
版权声明:本站原创文章,由 老马 于2024-10-10发表,共计1182字。
转载说明:本站提供的一切软件、教程、电子书、视频、图片、音乐、文字以及所有内容信息仅供个人学习、研究或欣赏;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网友分享及网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢相关内容信息,请支持正版,进行购买注册,以得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!侵删请致信E-mail:tntwl@qq.com
评论(没有评论)