python 爬小程序,爬虫小程序代码,python编写爬虫小程序

我们可以通过python实现这样一个简单的爬虫功能，把我们想要的代码爬行到本地。下面我们来看看如何用python实现这样的功能。

起因

半夜突然想下载几本电子书来扩展kindle，于是想起python太浅了，也没学过什么“decorator”、“多线程”之类的。

我觉得廖雪峰大神的那个python教程很经典，很有名。刚想找pdf版的下载，没找到！CSDN有一个不完整的，骗了我一个积分！尼玛！

气愤之下，我打算直接写个程序爬廖雪峰的教程，然后把html变成电子书。

过程

过程很有意思。利用浅显的python知识，编写python程序，爬python教程来学习python。想想有点激动.

Python真的很方便，50行左右就OK了。直接粘贴代码：

#编码：utf-8

导入urllib

domain=' 3358 www . Liao Xuefeng . com ' #廖雪峰的域名

path=r ' c:\ users \ cyhhao 2013 \ desktop \ temp \ \ ' # html要保存的路径。

#一个html头文件

input=open(r ' c:\ Users \ cyhhao 2013 \ Desktop \ 0 . html '，' r ')

head=input.read()

#打开python教程主界面

f=urllib . urlopen(' http://www . liaoxuefeng . com/wiki/001374738125095 c 955 C1 E6 d 8 bb 493182103 fac 9270762 a 000 ')

home=f.read()

f.close()

#替换所有空格并回车(很容易得到网址)

geturl=home.replace('\n '，'')

geturl=geturl.replace(' '，'')

#获取包含url的字符串

list=geturl . split(r ' em；ahref='')[1:]

#强迫症犯了，加上第一页也很完美。

list.insert(0，'/wiki/001374738125095 c 955 C1 E6 d 8 bb 493182103 fac 9270762 a 000 ' ')

#开始遍历url列表

对于李在名单中的说法：

URL=Li . split(r ' ')[0]

Url=域url #补丁Url

打印url

f=urllib.urlopen(url)

html=f.read()

#获取标题以便写入文件名

title=html.split('标题')[1]

title=title . split('-廖雪峰官方网站/title')[0]

#转代码，不然加到路径上就悲剧了。

title=title.decode('utf-8 ')。替换('/'，' ')

#截取文本

html=html.split(r '！- block main - ')[1]

Html=html.split(r'h4您的支持是作者写作的最大动力！/h4')[0]

html=html.replace(r'src=' '，' src=' '域)

#添加头部和尾部，形成一个完整的html

html=head html '/body/html '

#输出文件

output=open(路径' %d' % list.index(li) title ')。html '，' w ')

输出.写入(html)

output.close()

简单来说，人生苦短。我用python！

以上是本文的全部内容。我希望你能喜欢它。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读