未加星标

python 爬虫 批量获取代理ip的实例代码

字体大小 | |
[开发(python) 所属分类 开发(python) | 发布者 店小二05 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

实例如下所示:

import urllib.request
import os, re,sys,time
try:
from StringIO import StringIO
except ImportError:
from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
def __init__(self,diqu):
self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",

"ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',

'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',

'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',

'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',

'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
}
self.diqu = diqu

def urlopen(self,url):
global header
try:
req = urllib.request.Request(url, None, header)
res=urllib.request.urlopen(req)

return res
except:
pass
def getip(self,ren):
'''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''

url = self.ur[self.diqu]+str(ren)

ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
#################################通用正则匹配的 格式 是 (IP,端口,地区) 地区有可能包含换行和空格
try:
data = self.urlopen(url).read().decode('utf-8')
except:
return None

self.rel = []

ip = ip_proxy_re.findall(data)
##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格

return ip

if __name__ == '__main__':
g=Getip("xicidaili国内普通代理 --1线")
import pprint
for x in range(4):
ips = g.getip(1)
print('获取到ip地址一共:',len(ips))
pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。


您可能感兴趣的文章:通过Python爬虫代理IP快速增加博客阅读量利用Python爬取可用的代理IPPython爬虫设置代理IP的方法(爬虫技巧)Python爬虫代理IP池实现方法Python常用的爬虫技巧总结

本文开发(python)相关术语:python基础教程 python多线程 web开发工程师 软件开发工程师 软件开发流程

主题: WindowsHTML浏览器AppleChromePython博客
tags: http,com,xicidaili,self,ip,IP,re,ip84,爬虫,url,lt,diqu,proxy
分页:12
转载请注明
本文标题:python 爬虫 批量获取代理ip的实例代码
本站链接:https://www.codesec.net/view/576952.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 开发(python) | 评论(0) | 阅读(46)