Introduction
1. 简介
1.1 概述
1.2 架构
1.3 特性
2. 快速入门
2.1 引入依赖
2.2 写第一个爬虫
3. 核心组件介绍
4. 其他
Published with GitBook
1.3 特性
1.3 特性
Cetty支持自定义Handler用于处理整个爬虫的核心逻辑,包括核心组件:下载器、解析器、持久化器等组件,在Cetty中,他们都有一个统称:Handler,用于处理整个爬虫的信息流。
Cetty整体设计是基于模块化开发,实际上各个模块可以抽出来单独运行。
Cetty支持同步和异步请求方式,并提供友好的配置入口,并支持代理方式。
Cetty支持多线程并行抓取,提高抓取效率。
Cetty支持Jsoup对页面进行解析。
Cetty支持轻量级的伪分布式抓取。
results matching "
"
No results matching "
"