1.3 特性

  • Cetty支持自定义Handler用于处理整个爬虫的核心逻辑,包括核心组件:下载器、解析器、持久化器等组件,在Cetty中,他们都有一个统称:Handler,用于处理整个爬虫的信息流。
  • Cetty整体设计是基于模块化开发,实际上各个模块可以抽出来单独运行。
  • Cetty支持同步和异步请求方式,并提供友好的配置入口,并支持代理方式。
  • Cetty支持多线程并行抓取,提高抓取效率。
  • Cetty支持Jsoup对页面进行解析。
  • Cetty支持轻量级的伪分布式抓取。

results matching ""

    No results matching ""