mirror of
https://github.com/arch3rPro/1Panel-Appstore.git
synced 2026-06-11 00:51:09 +08:00
66 lines
2.2 KiB
Markdown
66 lines
2.2 KiB
Markdown
|
|
# Firecrawl
|
|||
|
|
|
|||
|
|
将任意网站转换为适合大语言模型(LLM)的结构化数据。强大的网页抓取、爬取、搜索和数据提取平台。
|
|||
|
|
|
|||
|
|
## 功能特点
|
|||
|
|
|
|||
|
|
- **单页抓取**:将任意 URL 转换为 Markdown、HTML、截图或结构化 JSON
|
|||
|
|
- **全站爬取**:递归抓取整个网站,智能过滤链接
|
|||
|
|
- **URL 发现**:通过站点地图、索引查询或搜索快速发现网站所有 URL
|
|||
|
|
- **网络搜索**:搜索网络并一次性获取结果的完整页面内容
|
|||
|
|
- **AI 提取**:基于 LLM 的结构化数据提取,支持 Schema 验证
|
|||
|
|
- **智能代理**:自主研究代理,自动导航并提取数据
|
|||
|
|
- **远程浏览器**:支持远程浏览器会话,提供 CDP 访问和代码执行能力
|
|||
|
|
- **批量操作**:异步批量抓取多个 URL
|
|||
|
|
- **自托管支持**:完全开源,支持本地部署,数据掌握在自己手中
|
|||
|
|
|
|||
|
|
## 使用说明
|
|||
|
|
|
|||
|
|
### 默认端口
|
|||
|
|
|
|||
|
|
- API服务: 3002
|
|||
|
|
- 队列管理界面: http://your-ip:3002/admin/YOUR_BULL_AUTH_KEY/queues
|
|||
|
|
|
|||
|
|
### API 访问
|
|||
|
|
|
|||
|
|
部署后可以通过 `http://your-ip:3002` 访问 API 服务。
|
|||
|
|
|
|||
|
|
测试爬取端点:
|
|||
|
|
```bash
|
|||
|
|
curl -X POST http://localhost:3002/v1/crawl \
|
|||
|
|
-H 'Content-Type: application/json' \
|
|||
|
|
-d '{
|
|||
|
|
"url": "https://firecrawl.dev"
|
|||
|
|
}'
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### 数据目录
|
|||
|
|
|
|||
|
|
应用数据存储在以下目录:
|
|||
|
|
- `./data/api` - API 服务数据
|
|||
|
|
- `./data/postgres` - PostgreSQL 数据库数据
|
|||
|
|
- `./data/redis` - Redis 缓存数据
|
|||
|
|
- `./data/playwright` - Playwright 浏览器缓存
|
|||
|
|
|
|||
|
|
### 环境变量
|
|||
|
|
|
|||
|
|
- `POSTGRES_USER` / `POSTGRES_PASSWORD`:PostgreSQL 数据库凭据
|
|||
|
|
- `BULL_AUTH_KEY`:队列管理界面的访问密钥
|
|||
|
|
- `OPENAI_API_KEY`:OpenAI API 密钥(用于 AI 相关功能,可选)
|
|||
|
|
|
|||
|
|
### 架构说明
|
|||
|
|
|
|||
|
|
Firecrawl 自托管版本包含以下服务组件:
|
|||
|
|
- **API 服务**:主 API 服务器,处理所有请求(4核CPU,8GB内存限制)
|
|||
|
|
- **Playwright 服务**:浏览器自动化服务(2核CPU,4GB内存限制)
|
|||
|
|
- **Redis**:任务队列和缓存后端
|
|||
|
|
- **RabbitMQ**:NuQ 消息代理
|
|||
|
|
- **PostgreSQL**:任务状态管理数据库
|
|||
|
|
|
|||
|
|
## 相关链接
|
|||
|
|
|
|||
|
|
- 官方网站: https://www.firecrawl.dev
|
|||
|
|
- GitHub: https://github.com/firecrawl/firecrawl
|
|||
|
|
- 文档: https://docs.firecrawl.dev
|
|||
|
|
- Discord社区: https://discord.gg/firecrawl
|