利用Python批量爬取网页图片,python批量爬取网页内容

  利用Python批量爬取网页图片,python批量爬取网页内容

  Python选择性爬取网页图片并保存本地刚学python,先记录一个抓取图片的方法,保存在本地指定路径。当然,这不一定是最简单的方法,但绝对是最容易使用的方法。没做好,仅供参考。

  首先,您需要安装几个模块:

  打开计算机的命令提示符窗口(菜单键R,输入cmd,然后回车)

  其他模块都是内置模块,可以直接使用。

  具体代码如下:(此处选择天堂图片网为基址抓取图片)

  从lxml导入etree从urllib导入OS的导入请求。请求导入URL检索#确定文件夹“所有图片”是否存在如果不存在os.path.exists(所有图片):#如果不存在,则创建它。#为范围(1,2)中的页面创建“所有图片”文件夹os.mkdir(所有图片)#切换到“所有图片”文件夹os.chdir(所有图片):#1是起始页,2向网页请求打印结束页(下载页面{} 上的图片)。format(page)) #使用for循环拼接前10页的URL= 3358 www.ivsky.com/tupian/index _ { }。“html”。format (page) #,获取网页源代码response=requests.get(url) #解析网页源代码html _ obj=etree.html(response . text)#获取A标签列表a _ list=html _ obj . XPath(//ul[@ class= Ali ]/Li/p/A )#遍历A _ list中A的A标签:#获取小类的地址例如:/tu pian/杜伦_ tuiche _ v 49859/href=a . XPath( @ href )[0]#获取小类别文本信息title=a . XPath( text())[0]# 3358 www.ivsky.com/tupian/dulun ABS _ URL= 3358 www . ivsky . com href if not OS . path . exists(title):OS . mkdir(title)OS . chdir(title)response=requests . Get(ABS _ URL)HTML _ obj=etree.html(response . text 获取图片名称,拆分字符串得到内容的最后一部分name=src.split(/)[-1] #参数1:要下载图片的地址,参数2:要下载图片的名称urlretrieve(src,name) #如果没有下载完一个类别,切换到父目录继续下载其他分类图片OS.chdir(

  这样您就可以看到要在本地抓取的图片:

  第一次不好。请参考!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: