1.1 概述

1.1.1 需求

互联网中数据越来越敏感并且数据越来越有价值,我们需要一个工具帮我们从网络中抓取到我们想要的数据,并且做一些有意义的事情,比如数据分析,自然语言处理,舆情分析等等,但是数据采集是这一切的基础。

1.1.2 实现

Cetty实现是完全基于模块化开发,提供高可扩展性,对于各种特殊的需求用户都能自己去实现特殊的逻辑,并且模块之间耦合度并不高,整个框架思路清晰。

1.1.3 展望

  • 能够应付市面上各类的反爬策略
  • 支持完善的爬虫治理
  • 支持分布式

results matching ""

    No results matching ""