今天写了一个脚本用来爬取ZOL桌面壁纸网站的高清图片;
链接:
本程序只爬了美女板块的图片,若要下载其他板块,只需修改程序中的”meinv“即可
代码如下:
#coding=utf-8import urllib import reimport timeclass Spider: baseUrl='http://desk.zol.com.cn/' pic_index=0 itemGroupPic=[] def __init__(self,page_count): time.sleep(1) url=self.baseUrl+"meinv/1920x1080/" for i in range(10, page_count): time.sleep(5) html=self.getHtml(url,i) getbi=self.getPageImageGroup(html) bizhi_url=self.getbizhiurlList(getbi) def getHtml(self,url,page_index): url=url+str(page_index)+".html" page = urllib.urlopen(url) html = page.read() return html def getPageImageGroup(self,html): reg=r'
运行结果如下:
运行环境是py2.7,原理很简单,并没有用到类似scrapy这样的框架,也没用什么动态获取
1.通过urllib获取网页源代码
2.找到规律,通过正则表达式找到url
3.用urllib下载到本地文件
未完待续。。。。。