免费ip地址代理(国内免费代理ip地址和端口)

/1 前言/

下面就开始实战操作。

1.首先我们随便找一个免费代理ip网站,如下图所示。

免费ip地址代理(国内免费代理ip地址和端口)

2、打开网页查看器,分析其网页元素结构,如下图所示。

/3验证IP有效性/

这里把百度百科作为目标网站,这个看似很普通的网站,反爬措施却极为严格,爬不了几条内容就开始请求失败了,下面我以在百度百科查询全国火车站归属地信息为例演示如何使用免费代理ip。

1、首先我在12306上把所有的火车站名都爬下来了,但是没有归属地信息。

3、所以,我们只需在class_=’basicInfo-item’的标签内容里查找有无“省”或者“市”的字符,然后输出就行了,最后加一个while True循环,当该ip能正常爬数据时,则break该循环;若该ip被禁,则马上重新请求一个新ip进行爬取。直接上代码如下图所示:

4、其中for循环是遍历所有火车站,try是用于检测该ip还能不能用,若不能,则在except里请求1个新ip,爬取效果如下图所示:

下次再遇到爬虫被禁的情况就可以用此办法解决了。

/4结语/

关于本文的代码,小编已经上传到github了,https://github.com/cassieeric/python_crawler/tree/master/IP_proxy,如果觉得不错,记得给个star噢!

发表评论

登录后才能评论