,,python爬虫scrapy基本使用超详细教程

,,python爬虫scrapy基本使用超详细教程

本文主要介绍了python爬虫scrapy的基本使用,给大家讲的很详细,对大家的学习或者工作都有一定的参考价值。有需要的朋友可以参考一下。

一.导言基本用法2.1环境安装2.2 scrapy使用流程2.3文件解析2.4 settings.py一些常用设置三。示例3.1示例要求3.2示例代码3.3输出结果

目录

官方文件:中文版本2.3

下图应该大家都不陌生,在很多关于scrapy框架的介绍中都会出现。如果有兴趣,请查看相关资料。当然,学会使用scrapy才是最重要的。

一、介绍

二、基本使用

1.linux和mac操作系统:

pip安装废料

2.windows系统:

安装车轮:pip先安装车轮。

下载twisted:下载地址

Twisted: pip安装twisted 17 . 1 . 0 CP 36 CP 36 mwin _ amd64 . whl(记住带后缀)

pip安装pywin32

pip安装废料

3.Anaconda(推荐)

刚开始学python的时候用的是python3.8,安装各种库的时候总是出现各种错误,真的有点吃不消。Anaconda在安装过程中会安装一些常用的库。其次,在我们想安装其他库的时候也很方便。当然,你也可以选择安装一些其他的软件,

2.1 环境安装

默认大家都在这里安装了scrapy库。请记住在命令行中输入以下命令。(我使用的anaconda的命令行)

创建工程

scrapy startproject项目名称

进入工程目录:确保在此处输入刚刚创建的目录。

cd项目名称

创建爬虫文件:创建的crawler文件将出现在之前创建的spiders文件夹下。

scrapy genspider蜘蛛名www.xxx.com

编写相关代码

执行爬虫文件

爬行蜘蛛名称

2.2 scrapy使用流程

进口废品

类HelloSpider(scrapy。蜘蛛):

Name='hello' #爬虫名称

#允许的域名:限制start_urls列表中的哪些URL可以发送请求。

#通常,我们不使用

# allowed _ domains=[' www . Baidu . com ']

# Start url list: scrapy会自动对start_urls列表中的每个url进行请求。

#我们可以手动添加我们需要访问的url

start _ URLs=[' https://www . Baidu . com/',' https://www.csdn.net/']

Def parse(self,response):# scrapy自动向start_urls中的每个url发送请求时,会在response对象中保存response对象。

#代码一般用parse方法编写。

打印('响应:',响应)

2.3 文件解析

相当于requests中的headers参数中的User-Agent

USER _ AGENT=' Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/88 . 0 . 4324 . 150 Safari/537.36 Edg/88 . 0 . 705 . 68 '

可以忽略或者不遵守robots协议

ROBOTSTXT_OBEY=False

只有程序出现错误的情况下,才显示日志文件,程序正常执行时只会输出我们想要的结果

LOG _ LEVEL=' ERROR '==scrapy crawl spider name-nolog

//两者是等价的。当然推荐前者。

不添加LOG_LEVEL='ERROR '

Add LOG_LEVEL='ERROR '

scrapy 爬取文件保存为CSV文件中文乱码的解决办法

//以下设置可能会导致出现繁体字,可以一个一个试。

FEED_EXPORT_ENCODING='gb18030 '

FEED_EXPORT_ENCODING='utf-8 '

馈送导出编码='gbk '

2.4 settings.py一些常见的设置

三、实例

目的:爬取百度网页的百度热榜

3.1 实例要求

实例代码

3.2 实例代码

结果

这篇关于python爬虫scrapy基本用法的超详细教程就到此为止。关于python crawler scrapy使用的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: