工作原理
- 默认新鲜度:
maxAge = 172800000ms(2 天)。如果缓存副本仍在该时效内,将即时返回;否则,Firecrawl 会重新抓取并更新缓存。 - 强制新抓取:将
maxAge设为0以始终抓取。 - 跳过缓存:如果不希望为某个请求存储结果,请设置
storeInCache: false。
maxAge 控制新鲜度:
- 如果我们有该页面的较新版本,即时返回
- 仅当我们的版本早于你指定的时限时才重新抓取
- 节省时间——结果以毫秒级而非秒级返回
何时使用
- 文档、文章、产品页面
- 批量处理任务
- 开发与测试
- 构建知识库
- 实时数据(股价、即时比分、突发新闻)
- 频繁更新的内容
- 对时效性要求高的应用
使用方法
maxAge。取值以毫秒为单位(例如 3600000 表示 1 小时)。
常见的 maxAge(缓存)取值
- 5 分钟:
300000- 适用于半动态内容 - 1 小时:
3600000- 适用于每小时更新的内容 - 1 天:
86400000- 适用于每日更新的内容 - 1 周:
604800000- 适用于相对静态的内容
性能影响
maxAge 后:
- 针对最新内容,响应速度提升 500%
- 结果即时返回,无需等待重新抓取
重要说明
- 默认:
maxAge为172800000(2 天) - 需要时新抓:如果我们的数据早于
maxAge,我们会自动抓取最新内容 - 无过期数据:你不会收到早于你指定
maxAge的数据
更快的爬取
scrapeOptions 中使用 maxAge,即可返回我们最近访问过页面的缓存结果。
maxAge 进行爬取时,如果该页面存在近期缓存数据,你爬取的每个页面都可获得高达 500% 的速度提升。
立即开始使用 maxAge,大幅加速你的抓取与爬取!
