Selenium 最常见也是功能比较全面的爬虫工具,网上有很多使用Python+Selenium的教程,都比较言简易懂。我最初接触Selenium是用来做测试,因为有自动截图的功能,跑完每个case以后,自动截图保存一下,回头可以人工再确认,特别方便。然后Selenium还有RemoteWebDriver,可以把Selenium作为一个microservice部署到其他服务器,实现分布式。当然,Selenium最大的优点是,最接近浏览器操作,很多网站会有反爬虫的机制,Selenium可以绕过大部分(像看图填数字之类的可能还比较困难)。 Jsoup 最近碰到Selenium无法解决的一个问题就是文件下载,尤其是RemoteWebDriver的时候,下载文件特别费劲。Jsoup是一个比较简单好用的通信库,对于爬虫检查不是很严格的网站,都可以用它来获取。 HtmlUnit 个人认为介于Selenium和Jsoup之间。比Jsoup稍微更接近native的浏览器。

Read More
Close Bitnami banner
Bitnami