博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬取高清桌面壁纸
阅读量:6813 次
发布时间:2019-06-26

本文共 891 字,大约阅读时间需要 2 分钟。

今天写了一个脚本用来爬取ZOL桌面壁纸网站的高清图片;

链接:

本程序只爬了美女板块的图片,若要下载其他板块,只需修改程序中的”meinv“即可

代码如下:

#coding=utf-8import urllib  import reimport timeclass Spider:    baseUrl='http://desk.zol.com.cn/'    pic_index=0    itemGroupPic=[]    def __init__(self,page_count):        time.sleep(1)        url=self.baseUrl+"meinv/1920x1080/"        for i in range(10, page_count):            time.sleep(5)            html=self.getHtml(url,i)            getbi=self.getPageImageGroup(html)             bizhi_url=self.getbizhiurlList(getbi)            def getHtml(self,url,page_index):        url=url+str(page_index)+".html"        page = urllib.urlopen(url)        html = page.read()        return html    def getPageImageGroup(self,html):        reg=r'

运行结果如下:

运行环境是py2.7,原理很简单,并没有用到类似scrapy这样的框架,也没用什么动态获取

1.通过urllib获取网页源代码

2.找到规律,通过正则表达式找到url

3.用urllib下载到本地文件

未完待续。。。。。

转载于:https://www.cnblogs.com/kevinWu7/p/10163514.html

你可能感兴趣的文章
Watson使用指南
查看>>
PHP各大支付平台在线支付集成源码
查看>>
你的GitHub,怎么和我用的不太一样?
查看>>
美团即时物流的分布式系统架构设计
查看>>
GitOps:Weaveworks通过开发者工具实现CI/CD
查看>>
访谈:关于持续敏捷交付与服务矩阵
查看>>
为什么AppDynamics重构指标服务时选择了HBase而不是别的NOSQL
查看>>
GitLab公布关于开发者趋势的问卷调查结果
查看>>
测试人员的GitHub
查看>>
微软宣布提供Azure Cognitive Services容器支持
查看>>
红帽收购混合云管理提供商NooBaa,混合云爆发节点临近!
查看>>
《F# Deep Dives》书评与作者问答
查看>>
InfoQ播客:Randy Shoup谈Stitch Fix的技术栈,数据科学和微服务架构
查看>>
ASP.NET Core提供模块化Middleware组件
查看>>
模拟黑客帝国效果2(canvas实验)
查看>>
OpenJDK9 Hotspot:Zero 解释器 初探
查看>>
JS中bind方法与函数柯里化
查看>>
调查显示:明年容器企业级用户将出现井喷式增长
查看>>
官方实锤!微软宣布以 75 亿美元收购 GitHub
查看>>
一个Java架构进阶必修体系图(只要思想不滑坡,方法总比困难多) ...
查看>>