crawler4j源码，curator源码

原标题：crawler4j源码，curator源码

导读：

开源框架是什么?所谓框架就是一个可以被广泛应用的架构（如MVC），通常是大家常用而又没什么变化的东西，人们就把它框架，让大家度节省时间。比如ThinkPHP就是为了简化企业...

开源 框架是什么?

所谓框架就是一个可以被广泛应用的架构（如MVC），通常是大家常用而又没什么变化的东西，人们就把它框架，让大家度节省时间。比如Thinkphp就是为了简化企业级应用开发和敏捷web应用开发而诞生的。最早诞生于2006年初，原名FCS，2007年元旦正式更名为ThinkPHP，并且遵循Apache2开源协议发布。

java开源框架是指基于JAVA 语言开发，并遵循开源协议（如Apache、GPL、MIT等）的软件框架。这些框架在软件开发中扮演着至关重要的角色，它们为开发者提供了构建软件应用的标准组件和架构模式，旨在简化开发流程，提高开发效率。

开源框架是指源代码可以被公开查看、使用和修改的软件框架。开源框架的特点是透明、可定制和可扩展，用户可以根据自己的需求对框架进行修改和定制，以满足特定的业务需求。开源框架通常由一个开源社区或组织维护和支持，用户可以通过参与社区活动来共同改进和完善框架。

开源框架有很多，其中比较知名的有：Spring、django、Flask、TensorFlow等。以下是这些开源框架的简要介绍：Spring框架：类型：轻量级的控制反转和面向切面的容器框架。应用场景：主要被用于企业级的Java 应用程序开发。特点：提供了Web、数据访问、集成和消息等多个领域的模块，灵活性和可扩展性强。

Substrate是一个完全模块化的区块链框架，让你通过选择适合你的项目的网络堆栈、共识模型或治理方法，或通过创建你自己的组件，组成一个有明确解耦组件的链。通过Substrate，你可以部署一个为你的规格设计和建造的区块链，但也可以随着你不断变化的需求而发展。所有的Substrate架构和工具都在开源许可下提供。

crawler4j爬取文件 存放 地址怎么设置

processPage（curURL）：用PageFetcher.fetch爬取网页，如果curURL有redirect，则将redirect url的url加入Frontier，以后再调度；如果爬取正常，则先进行parse，生成Page，将新urls降入Frontier（新加入url的深度此时确定），调用visit（Page）{用户自定义操作}。

网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器（问题1中描述过了），或者分析ajax的http请求，自己生成ajax请求的url，获取返回的数据。如果是自己生成ajax请求，使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL管理功能（比如断点爬取）。

开源爬虫框架各有什么优缺点

1、爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么？不支持多线程、不支持代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环执行http请求。能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。

2、各种爬虫框架，方便高效的下载网页；多线程、进程模型成熟稳定，爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。多线程或进程会更优化程序效率，提升整个系统下载和分析能力。

3、缺点：不能加载JS。7）mechanize：优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。8）selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。9）cola：一个分布式爬虫框架。