,,python爬虫scrapy基本使用超详细教程

本文主要介绍了python爬虫scrapy的基本使用，给大家讲的很详细，对大家的学习或者工作都有一定的参考价值。有需要的朋友可以参考一下。

一.导言基本用法2.1环境安装2.2 scrapy使用流程2.3文件解析2.4 settings.py一些常用设置三。示例3.1示例要求3.2示例代码3.3输出结果

一、介绍

二、基本使用

1.linux和mac操作系统:

pip安装废料

2.windows系统:

安装车轮：pip先安装车轮。

下载twisted:下载地址

Twisted: pip安装twisted 17 . 1 . 0 CP 36 CP 36 mwin _ amd64 . whl(记住带后缀)

pip安装pywin32

pip安装废料

3.Anaconda(推荐)

刚开始学python的时候用的是python3.8，安装各种库的时候总是出现各种错误，真的有点吃不消。Anaconda在安装过程中会安装一些常用的库。其次，在我们想安装其他库的时候也很方便。当然，你也可以选择安装一些其他的软件，

2.1 环境安装

默认大家都在这里安装了scrapy库。请记住在命令行中输入以下命令。(我使用的anaconda的命令行)

创建工程

scrapy startproject项目名称

进入工程目录:确保在此处输入刚刚创建的目录。

cd项目名称

创建爬虫文件:创建的crawler文件将出现在之前创建的spiders文件夹下。

scrapy genspider蜘蛛名www.xxx.com

编写相关代码

执行爬虫文件

爬行蜘蛛名称

2.2 scrapy使用流程

进口废品

类HelloSpider(scrapy。蜘蛛):

Name='hello' #爬虫名称

#允许的域名：限制start_urls列表中的哪些URL可以发送请求。

#通常，我们不使用

# allowed _ domains=[' www . Baidu . com ']

# Start url list: scrapy会自动对start_urls列表中的每个url进行请求。

#我们可以手动添加我们需要访问的url

start _ URLs=[' https://www . Baidu . com/'，' https://www.csdn.net/']

Def parse(self，response):# scrapy自动向start_urls中的每个url发送请求时，会在response对象中保存response对象。

#代码一般用parse方法编写。

打印('响应：'，响应)

2.3 文件解析

相当于requests中的headers参数中的User-Agent

USER _ AGENT=' Mozilla/5.0(Windows NT 10.0；Win64x64) AppleWebKit/537.36 (KHTML，像壁虎一样)Chrome/88 . 0 . 4324 . 150 Safari/537.36 Edg/88 . 0 . 705 . 68 '

可以忽略或者不遵守robots协议

ROBOTSTXT_OBEY=False

只有程序出现错误的情况下，才显示日志文件，程序正常执行时只会输出我们想要的结果

LOG _ LEVEL=' ERROR '==scrapy crawl spider name-nolog

//两者是等价的。当然推荐前者。

不添加LOG_LEVEL='ERROR '

Add LOG_LEVEL='ERROR '

scrapy 爬取文件保存为CSV文件中文乱码的解决办法

//以下设置可能会导致出现繁体字，可以一个一个试。

FEED_EXPORT_ENCODING='gb18030 '

FEED_EXPORT_ENCODING='utf-8 '

馈送导出编码='gbk '

2.4 settings.py一些常见的设置

三、实例

目的：爬取百度网页的百度热榜

3.1 实例要求

实例代码

3.2 实例代码

结果

这篇关于python爬虫scrapy基本用法的超详细教程就到此为止。关于python crawler scrapy使用的更多信息，请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

目录