项目简介
FireCrawl 是一款创新的爬虫工具,它能够无需站点地图,抓取任何网站的所有可访问子页面。与传统爬虫工具相比,FireCrawl 特别擅长处理使用 JavaScript 动态生成内容的网站。此外,它还提供了一个易于使用的 API,让开发者能够轻松实现内容的爬取和转换。
主要目标
FireCrawl 的当前开发重点是通过提供干净的数据,提升大型语言模型(LLM)的响应准确性。
如何使用
FireCrawl 提供了一个托管版本的 API,用户可以在 Playground 和文档中找到详细的使用指南。此外,用户也可以选择自行托管后端。以下是 API 的基本使用示例:
– 抓取操作:通过提交爬取作业,返回作业 ID 以检查爬取状态。
– 检查作业:使用作业 ID 检查爬取作业的状态并获取结果。
Python SDK
为了方便 Python 开发者,FireCrawl 还提供了 Python SDK。以下是使用 Python SDK 抓取网站的示例:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
print(result['markdown'])
在线使用
除了离线使用的方式,还可以在线使用。
使用浏览器打开下面的地址,就可以使用网页服务:
https://firecrawl.dev/
使用方式非常简单,只需要简单两步
-
输入目标网站的 URL
-
点击 Run
项目链接
对 FireCrawl 感兴趣的开发者可以访问其 GitHub 页面了解更多信息和获取源代码:
https://github.com/mendableai/firecrawl
结语
FireCrawl 以其独特的功能和简便的 API,为网站内容的抓取和转换提供了强大的支持。无论是数据分析师、开发者还是研究人员,都能通过 FireCrawl 轻松获取所需数据,推动项目的发展。