,,Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解

,,Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解 本文主要介绍Python请求模块的基本使用实例和高级应用实例(自动登录、网页源代码抓取、Cookies)的详细讲解有需要的可以参考一下

1、Python requests模块说明

Requests是一个使用Apache2许可的HTTP库 用python写的 它比urllib2模块更简洁 支持HTTP连接维护和连接池,使用cookie的会话维护,文件上传,自动响应内容编码,以及国际URL和POST数据自动编码 在python内置模块的基础上,高度封装,使得python在发出网络请求时人性化使用请求可以很容易地完成浏览器的任何操作 现代、国际化、友好 请求将自动实现持久连接保持活动

2、Python requests模块基础入门

1)导入模块

导入请求

2)发送请求的简洁

示例:获取网页(个人github) 导入请求 r=requests . get(' 3359 github . com/ranxf ')#最基本的不带参数的get请求 带有参数的# get请求R1=requests . get(URL=' 3358ddict.baidu.com/s',参数={'wd':' python'}) 我们也可以使用请求模块的其他请求方法 1 requests . get(' https://github . com/timeline . JSON ')# get请求 2 requests . post(" http://http bin . org/post ")# post请求 3 requests . put(" http://http bin . org/put ")# put请求 4 requests . delete(" http://http bin . org/delete ")#删除请求 5 requests . head(" http://http bin . org/get ")# head请求 6 requests . options(" http://http bin . org/get ")# options请求

3)为url传递参数

Url_params={'key':'value'} #字典传递参数,如果值为None的键不添加到Url r=requests.get('您的url ',params=url_params) 打印(网址) 你的网址?键=值

4)响应的内容

R.encoding #获取当前编码 R.encoding='utf-8' #设置编码 R.text #用编码解析返回的内容字符串的响应体将根据响应头的字符编码自动解码 R.content #以字节(二进制)返回字节响应体会自动解码gzip和deflate压缩给你 R.headers #用一个dictionary对象存储服务器响应头,但是这个dictionary是特殊的,并且dictionary键不区分大小写如果该键不存在,它将返回None R.status_code #响应状态代码 R.raw #使用r.raw.read()返回原始响应体,即urllib的响应对象 R.ok #检查R.ok的布尔值,了解登录是否成功 # *特殊方法* # r.json() #Requests内置的json解码器以json的形式返回,前提是返回的内容是json格式的,否则解析出错会抛出异常 R.raise_for_status() #失败的请求(不是200响应)抛出异常

post发送json请求:

导入请求 导入json r=requests . post(' https://API . github . com/some/endpoint ',data=JSON . dumps({ ' some ':' data ' })) print(r.json())

5)定制头和cookie信息

header={ ' user-agent ':' my-app/0 . 0 . 1 ' ' } cookie={'key':'value'} r=requests.get/post('您的url ',headers=header,cookies=cookie) data={'some': 'data'} headers={ ' content-type ':' application/JSON ', 用户代理“:”Mozilla/5.0(X11;UbuntuLinux x86 _ 64rv:22.0)壁虎/20100101火狐/22.0'} r=requests . post(' https://API . github . com/some/endpoint ',data=data,headers=headers) 打印(r.text)

6)响应状态码

使用requests方法后,将返回一个response对象,该对象存储服务器响应的内容,如r.text、r.status _ code等上面的例子已经提到了 获取text模式的响应体实例:当你访问r.text时,会被其响应的文本代码解码,你可以修改其代码使r.text被自定义代码解码 r=requests . get(' http://www . it why . org ') print(r.text,' \n{}\n '格式(“*”* 79),r.encoding) 编码='GBK ' print(r.text,' \n{}\n '格式(“*”* 79),r.encoding) 示例代码: 导入请求 r=请求get(' https://githubcom/Ranxf ')#最基本的不带参数的得到请求 打印(状态代码)#获取返回状态 R1=请求get(URL=' http://dict百度一下com/s ',params={'wd': 'python'}) #带参数的得到请求 打印(r1.url) print(r1.text) #打印解码后的返回数据 运行结果: /usr/bin/python 3.5/home/rxf/python 3 _ 1000/1000/python 3 _ server/python 3 _ requests/demo 1巴拉圭 200 http://dict.baidu.com/s?wd=python ………… 进程结束,退出代码为0 r状态代码#如果不是200,可以使用r.raise_for_status()抛出异常

7)响应

r标题#返回字典类型,头信息 r请求头#返回发送到服务器的头信息 r.cookies #返回甜饼干 r历史#返回重定向信息,当然可以在请求是加上allow_redirects=false阻止重定向

8)超时

r=requests.get('url ',timeout=1) #设置秒数超时,仅对于连接有效

9)会话对象,能够跨请求保持某些参数

s=请求会话() s.auth=('auth ',' passwd ') s.headers={'key':'value'} r=s.get('url ') r1=s.get('url1 ')

10)代理

proxy={ ' http ':' ip1 ',' https':'ip2' } requests.get('url ',proxies=proxies) 汇总: # HTTP请求类型 #获得类型 r=请求get(' https://githubcom/timelineJSON’) #帖子类型 r=请求帖子(' http://m携程com/post’) #上传类型 r=请求放(' http://m携程com/put’) #删除类型 r=请求删除(' http://m携程com/delete’) #头类型 r=请求头部(' http://米携程com/head’) #选项类型 r=请求选项(' http://m携程com/get’) # 获取响应内容 打印(r内容)#以字节的方式去显示,中文显示为字符 打印(正文)#以文本的方式去显示 #网址传递参数 有效负载={'keyword ':'香港,' salecityid': '2'} r=请求get(' http://m携程com/web app/tour visa/visa _ list ',params=payload) 打印(网址)#示例为http://m.ctrip.com/webapp/tourvisa/visa_list?salecityid=2keyword=香港 #获取/修改网页编码 r=请求get(' https://githubcom/timelineJSON’) 打印(r编码) #json处理 r=请求get(' https://githubcom/timelineJSON’) print(r.json()) #需要先导入json # 定制请求头 url='http://m.ctrip.com ' headers={ ' User-Agent ':' Mozilla/5.0(Linux;安卓4 .2 .1;en-us;nexus 4 Build/JOP40D)苹果WebKit/535.19(KHTML,像壁虎一样)Chrome/180 .1025 .166移动Safari/535.19 ' } r=requests.post(url,headers=headers) 打印(请求标题) #复杂邮政请求 url='http://m.ctrip.com ' 有效负载={'some': 'data'} r=requests.post(url,data=json.dumps(payload)) #如果传递的有效载荷是线而不是迪克特,需要先调用抑郁方法格式化一下 #帖子多部分编码文件 url='http://m.ctrip.com ' files={'file': open('report.xls ',' rb')} r=requests.post(url,files=files) # 响应状态码 r=请求get(' http://m携程com’) 打印(r状态_代码) # 响应头 r=请求get(' http://m携程com’) 打印(r页眉) 打印(r.headers['内容类型']) 打印(r .标题get('内容类型'))访问响应头部分内容的两种方式 #饼干 URL=' http://示例' com/some/cookie/setting/URL ' r=requests.get(url) r.cookies['示例甜饼干名称'] #读取饼干 url='http://m.ctrip.com/cookies ' cookies=dict(cookies _ are=' working ') r=requests.get(url,cookie=cookies发送饼干 #设置超时时间 r=请求get(' http://m携程' com ',超时=0.001) #设置访问代理 代理={ http': 'http://10.10.1.10:3128 ', https': 'http://10.10.1.100:4444 ', } r=请求get(' http://m携程' com ',代理=代理) #如果代理需要用户名和密码,则需要这样: 代理={ http ':' http://用户:pass @ 1010 .1 .10:3128/', } # HTTP请求类型 #获得类型 r=请求get(' https://githubcom/timelineJSON’) #帖子类型 r=请求帖子(' http://m携程com/post’) #上传类型 r=请求放(' http://m携程com/put’) #删除类型 r=请求删除(' http://m携程com/delete’) #头类型 r=请求头部(' http://米携程com/head’) #选项类型 r=请求选项(' http://m携程com/get’) # 获取响应内容 打印(r内容)#以字节的方式去显示,中文显示为字符 打印(正文)#以文本的方式去显示 #网址传递参数 有效负载={'keyword ':'香港,' salecityid': '2'} r=请求get(' http://m携程com/web app/tour visa/visa _ list ',params=payload) 打印(网址)#示例为http://m.ctrip.com/webapp/tourvisa/visa_list?salecityid=2keyword=香港 #获取/修改网页编码 r=请求get(' https://githubcom/timelineJSON’) 打印(r编码) #json处理 r=请求get(' https://githubcom/timelineJSON’) print(r.json()) #需要先导入json # 定制请求头 url='http://m.ctrip.com ' headers={ ' User-Agent ':' Mozilla/5.0(Linux;安卓4 .2 .1;en-us;nexus 4 Build/JOP40D)苹果WebKit/535.19(KHTML,像壁虎一样)Chrome/180 .1025 .166移动Safari/535.19 ' } r=requests.post(url,headers=headers) 打印(请求标题) #复杂邮政请求 url='http://m.ctrip.com ' 有效负载={'some': 'data'} r=requests.post(url,data=json.dumps(payload)) #如果传递的有效载荷是线而不是迪克特,需要先调用抑郁方法格式化一下 #帖子多部分编码文件 url='http://m.ctrip.com ' files={'file': open('report.xls ',' rb')} r=requests.post(url,files=files) # 响应状态码 r=请求get(' http://m携程com’) 打印(r状态_代码) # 响应头 r=请求get(' http://m携程com’) 打印(r页眉) 打印(r.headers['内容类型']) 打印(r .标题get('内容类型'))访问响应头部分内容的两种方式 #饼干 URL=' http://示例' com/some/cookie/setting/URL ' r=requests.get(url) r.cookies['示例甜饼干名称'] #读取饼干 url='http://m.ctrip.com/cookies ' cookies=dict(cookies _ are=' working ') r=requests.get(url,cookie=cookies发送饼干 #设置超时时间 r=请求get(' http://m携程' com ',超时=0.001) #设置访问代理 代理={ http': 'http://10.10.1.10:3128 ', https': 'http://10.10.1.100:4444 ', } r=请求get(' http://m携程' com ',代理=代理) #如果代理需要用户名和密码,则需要这样: 代理={ http ':' http://用户:pass @ 1010 .1 .10:3128/', }

3、示例代码

GET请求

# 1、无参数实例 导入请求 ret=请求get(' https://githubcom/timelineJSON’) 打印(ret.url) 打印(返回文本) # 2、有参数实例 导入请求 有效负载={'key1 ':'值1 ','键2 ':'值2'} ret=请求get(' http://http binorg/get ',params=有效负载) 打印(ret.url) 打印(返回文本)

POST请求

# 1、基本邮政实例 导入请求 有效负载={'key1 ':'值1 ','键2 ':'值2'} ret=请求帖子(' http://http bin组织/职位',数据=有效负载) 打印(返回文本) # 2、发送请求头和数据实例 导入请求 导入json URL=' https://APIgithub' com/some/endpoint ' 有效负载={'some': 'data'} headers={ ' content-type ':' application/JSON ' } ret=requests.post(url,data=json.dumps(有效负载),标题=标题) 打印(返回文本) 打印(ret.cookies) 请求参数 定义请求(方法,网址,**kwargs): ""构造并发送:class:`Request Request '. :参数方法:新:类:`请求'对象的方法 :参数url:新:类:`请求'对象的URL . :param参数:(可选)要在查询字符串中发送的字典或字节,用于:class:`Request '. :参数数据:(可选)要在:类:`请求'的主体中发送的字典、字节或类似文件的对象 :param json:(可选)要在:类:`请求'的正文中发送的json数据 :param头:(可选)要与:类:`请求'一起发送的超文本传送协议头的字典 :参数cookies:(可选)要与:类:`请求'一起发送的词典或库克耶尔对象 :参数文件:(可选)用于多部分编码上载的``名称':类似文件的对象`(或``{'name': file-tuple} `)字典 "文件元组"可以是2元组``( '文件名,文件对象)` `, 3元组`( '文件名,文件对象,'内容类型')` 或者四元组``( '文件名',文件对象,'内容类型',自定义标题)`,其中``内容类型`是字符串 定义给定文件的内容类型和"自定义标题",一个类似词典的对象,包含额外的头 为文件添加 :参数验证:(可选)用于启用基本/摘要/自定义超文本传送协议身份验证的身份验证元组 :参数超时:(可选)等待服务器发送数据的时间 在放弃之前,作为一个浮动,或者一个:ref:`(连接超时,读 超时)超时元组 :类型超时:浮点或元组 :param allow_redirects:(可选)布尔型.如果允许发布/上传/删除重定向跟踪,则设置为没错 :类型允许重定向:bool :param代理:(可选)代理统一资源定位器的字典映射协议 :参数验证:(可选)是否验证加密套接字协议层证书还可以提供CA_BUNDLE路径默认为"真" :参数流:(可选)如果“假的”,将立即下载响应内容 :参数证书:(可选)如果是字符串,则为安全套接层客户端证书文件的路径(pem).如果元组,('证书','密钥')对 :return:class:` response响应'对象 :rtype:请求反应 用法: 导入请求 req=requests.request('GET ',' http://httpbin.org/get ') 回应【200】 参数示例代码 极好的参数方法url(): # requests.request(method='get ',url='http://127.0.0.1:8000/test/') # requests.request(方法='post ',url='http://127.0.0.1:8000/test/') 及格 极好的参数_参数(): # - 可以是字典 # - 可以是字符串 # - 可以是字节(ascii编码以内) # requests.request(method='get ', # URL=' http://1270 .0 .1:8000/测试/', # params={'k1': 'v1 ',' k2 ':'水电费'}) # requests.request(method='get ', # URL=' http://1270 .0 .1:8000/测试/', # params='k1=v1k2=水电费k3=v3k 3=vv3’) # requests.request(method='get ', # URL=' http://1270 .0 .1:8000/测试/', # params=bytes(' k1=v1k 2=k2k 3=v3k 3=vv3 ',编码='utf8 ')) # 错误 # requests.request(method='get ', # URL=' http://1270 .0 .1:8000/测试/', # params=bytes('k1=v1k2=水电费k3=v3k3=vv3 ',编码='utf8 ')) 及格 极好的参数数据(): # 可以是字典 # 可以是字符串 # 可以是字节 # 可以是文件对象 # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # data={'k1': 'v1 ',' k2 ':'水电费'}) # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # data=' k1=v1k2=v2k3=v3k3=v4 ' # ) # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # data=' k1=v1k2=v2k3=v3k3=v4 ', # headers={ ' Content-Type ':' application/x-www-form-urlencoded ' } # ) # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # data=open('data_file.py ',mode='r ',编码='utf-8 '),#文件内容是:k1=v1k2=v2k3=v3k3=v4 # headers={ ' Content-Type ':' application/x-www-form-urlencoded ' } # ) 及格 def param_json(): # 将json中对应的数据进行序列化成一个字符串,json.dumps(.) # 然后发送到服务器端的身体中,并且内容类型是{ '内容类型':'应用程序/json'} requests.request(method='POST ', url='http://127.0.0.1:8000/test/', json={'k1': 'v1 ',' k2 ':'水电费'}) def param _ headers(): # 发送请求头到服务器端 requests.request(method='POST ', url='http://127.0.0.1:8000/test/', json={'k1': 'v1 ',' k2 ':'水电费'}, headers={ ' Content-Type ':' application/x-www-form-urlencoded ' } ) def param _ cookies(): # 发送饼干到服务器端 requests.request(method='POST ', url='http://127.0.0.1:8000/test/', data={'k1': 'v1 ',' k2': 'v2'}, cookie={ ' cook 1 ':'值1 ' }, ) # 也可以使用库克雅尔(字典形式就是在此基础上封装) 从cookiejar导入库克耶尔 从cookiejar导入饼干 obj=CookieJar() obj.set_cookie(Cookie(版本=0,名称='c1 ',值='v1 ',端口=无,域=' ',路径='/',安全=假,过期=无, discard=True,comment=None,comment_url=None,rest={'HttpOnly': None},rfc2109=False, 端口指定=假,域指定=假,域初始点=假,路径指定=假) ) requests.request(method='POST ', url='http://127.0.0.1:8000/test/', data={'k1': 'v1 ',' k2': 'v2'}, cookies=obj) 极好的参数文件(): # 发送文件 # file_dict={ # 'f1 ':打开(“自述”,“rb”) # } # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # files=file_dict) # 发送文件,定制文件名 # file_dict={ # 'f1': ('test.txt ',open('readme ',' rb ')) # } # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # files=file_dict) # 发送文件,定制文件名 # file_dict={ # 'f1': ('test.txt ',' hahsfaksfa9kasdjflaksdjf ') # } # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # files=file_dict) # 发送文件,定制文件名 # file_dict={ # 'f1': ('test.txt ',' hahsfaksfa9kasdjflaksdjf ',' application/text ',{'k1': '0'}) # } # requests.request(method='POST ', # URL=' http://1270 .0 .1:8000/测试/', # files=file_dict) 及格 极好的参数验证(): 从请求. auth导入HTTPBasicAuth ret=请求获取(' https://APIgithub' com/user ',auth=HTTPBasicAuth('wupeiqi ',' sdfasdfasdf ')) 打印(返回文本) # ret=请求get(' http://192168 .1 .1 ', # auth=HTTPBasicAuth('admin ',' admin ')) # ret.encoding='gbk ' #打印(返回文本) # ret=请求get(' http://http binorg/digest-auth/auth/user/pass ',auth=HTTPDigestAuth('user ',' pass ')) #打印(退休) # 极好的参数_超时(): # ret=请求获取(' http://谷歌com/',timeout=1) #打印(退休) # ret=请求获取(' http://谷歌com/',timeout=(5,1)) #打印(退休) 及格 极好的参数_允许_重定向(): ret=请求get(' http://1270 .0 .1:8000/test/',allow_redirects=False) 打印(返回文本) def param _ proxies(): 代理数量={ # 'http': '61.172.249.96:80 ', # ' https ':' http://61185 .219 .126:3128 ', # } # proxy={ ' http://1020 .1 .128 ':' http://10 .10 .1 .10:5323 ' } # ret=请求get(' http://www代理360cn/Proxy ',Proxy=Proxy) #打印(返回标题) #来自请求授权导入HTTPProxyAuth # # proxyDict={ # 'http': '77.75.105.165 ', # 'https': '77.75.105.165 ' # } # auth=HTTPProxyAuth('用户名','我的密码) # # r=请求get(' http://www谷歌' com ',proxies=proxyDict,auth=auth) #打印(正文) 及格 极好的参数流(): ret=请求get(' http://1270 .0 .1:8000/test/',stream=True) 打印(返回内容) ret.close() #从上下文库导入关闭 #带结束(请求get(' http://http binorg/get ',stream=True))作为r: # # 在此处理响应 # for i in r.iter_content(): #打印(一) 定义请求_会话(): 导入请求 会话=请求会话() ### 1、首先登陆任何页面,获取甜饼干 i1=会话获取(URL=' http://摘要乔蒂com/help/service’) ### 2、用户登陆,携带上一次的饼干,后台对甜饼干中的gpsd进行授权 i2=session.post( url='http://dig.chouti.com/login ', 数据={ 电话':' 8615131255089 ', 密码":"xxxxx

x ',

一个月': ''

}

)

i3=session.post(

URL=' http://摘要。乔蒂。com/link/vote?linksId=8589623 ',

)

打印(i3.text)

json请求:

#!/usr/bin/python3

导入请求

导入json

类url_request()。

def __init__(self):

'''初始化'''

if __name__=='__main__ ':

heard={ ' Content-Type ':' application/JSON ' }

有效负载={ '国家名称': '中国,

省名': '四川省,

L1城市名称':'成都,

L2城市名称':'冰夷,

城镇名称":",

经度:"107.33393",

纬度':' 33.157131 ',

语言:' CN'}

r=requests.post('http://www .

t print(data)

状态异常处理

import requests URL = 'http://ip.taobao.com/service/getIpInfo.php' # 淘宝IP地址库API try: r = requests.get(URL, params={'ip': '8.8.8.8'}, timeout=1) r.raise_for_status() # 如果响应状态码不是 200,就主动抛出异常 except requests.RequestException as e: print(e) else: result = r.json() print(type(result), result, sep='\n')

上传文件

使用request模块,也可以上传文件,文件的类型会自动进行处理:

import requests url = 'http://127.0.0.1:8080/upload' files = {'file': open('/home/rxf/test.jpg', 'rb')} #files = {'file': ('report.jpg', open('/home/lyb/sjzl.mpg', 'rb'))} #显式的设置文件名 r = requests.post(url, files=files) print(r.text)

request更加方便的是,可以把字符串当作文件进行上传:

import requests url = 'http://127.0.0.1:8080/upload' files = {'file': ('test.txt', b'Hello Requests.')} #必需显式的设置文件名 r = requests.post(url, files=files) print(r.text)

身份验证

基本身份认证(HTTP Basic Auth)

import requests from requests.auth import HTTPBasicAuth r = requests.get('https://httpbin.org/hidden-basic-auth/user/passwd', auth=HTTPBasicAuth('user', 'passwd')) # r = requests.get('https://httpbin.org/hidden-basic-auth/user/passwd', auth=('user', 'passwd')) # 简写 print(r.json())

另一种非常流行的HTTP身份认证形式是摘要式身份认证,Requests对它的支持也是开箱即可用的:

requests.get(URL, auth=HTTPDigestAuth('user', 'pass')

Cookies与会话对象

如果某个响应中包含一些Cookie,你可以快速访问它们:

import requests r = requests.get('http://www.google.com.hk/') print(r.cookies['NID']) print(tuple(r.cookies))

要想发送你的cookies到服务器,可以使用 cookies 参数:

import requests url = 'http://httpbin.org/cookies' cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'} # 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@,冒号,分号等特殊符号都不能作为Cookie的内容。 r = requests.get(url, cookies=cookies) print(r.json())

会话对象让你能够跨请求保持某些参数,最方便的是在同一个Session实例发出的所有请求之间保持cookies,且这些都是自动处理的,甚是方便。

下面就来一个真正的实例,如下是快盘签到脚本:

import requests headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, compress', 'Accept-Language': 'en-us;q=0.5,en;q=0.3', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'} s = requests.Session() s.headers.update(headers) # s.auth = ('superuser', '123') s.get('https://www.kuaipan.cn/account_login.htm') _URL = 'http://www.kuaipan.cn/index.php' s.post(_URL, params={'ac':'account', 'op':'login'}, data={'username':'****@foxmail.com', 'userpwd':'********', 'isajax':'yes'}) r = s.get(_URL, params={'ac':'zone', 'op':'taskdetail'}) print(r.json()) s.get(_URL, params={'ac':'common', 'op':'usersign'})

requests模块抓取网页源码并保存到文件示例

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源

Python requests模块抽屉自动登录

#! /urs/bin/python3 import requests '''requests模块抓取网页源码并保存到文件示例''' html = requests.get("http://www.baidu.com") with open('test.txt', 'w', encoding='utf-8') as f: f.write(html.text) '''读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例''' ff = open('testt.txt', 'w', encoding='utf-8') with open('test.txt', encoding="utf-8") as f: for line in f: ff.write(line) ff.close()

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

Python requests模块自动登陆实例:

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests # ############## 方式一 ############## """ # ## 1、首先登陆任何页面,获取cookie i1 = requests.get(url="http://dig.chouti.com/help/service") i1_cookies = i1.cookies.get_dict() # ## 2、用户登陆,携带上一次的cookie,后台对cookie中的 gpsd 进行授权 i2 = requests.post( url="http://dig.chouti.com/login", data={ 'phone': "8615131255089", 'password': "xxooxxoo", 'oneMonth': "" }, cookies=i1_cookies ) # ## 3、点赞(只需要携带已经被授权的gpsd即可) gpsd = i1_cookies['gpsd'] i3 = requests.post( url="http://dig.chouti.com/link/vote?linksId=8589523", cookies={'gpsd': gpsd} ) print(i3.text) """ # ############## 方式二 ############## """ import requests session = requests.Session() i1 = session.get(url="http://dig.chouti.com/help/service") i2 = session.post( url="http://dig.chouti.com/login", data={ 'phone': "8615131255089", 'password': "xxooxxoo", 'oneMonth': "" } ) i3 = session.post( url="http://dig.chouti.com/link/vote?linksId=8589523" ) print(i3.text) """

Python requests模块github自动登录

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup # ############## 方式一 ############## # # # 1. 访问登陆页面,获取 authenticity_token # i1 = requests.get('https://github.com/login') # soup1 = BeautifulSoup(i1.text, features='lxml') # tag = soup1.find(name='input', attrs={'name': 'authenticity_token'}) # authenticity_token = tag.get('value') # c1 = i1.cookies.get_dict() # i1.close() # # # 1. 携带authenticity_token和用户名密码等信息,发送用户验证 # form_data = { # "authenticity_token": authenticity_token, # "utf8": "", # "commit": "Sign in", # "login": "wupeiqi@live.com", # 'password': 'xxoo' # } # # i2 = requests.post('https://github.com/session', data=form_data, cookies=c1) # c2 = i2.cookies.get_dict() # c1.update(c2) # i3 = requests.get('https://github.com/settings/repositories', cookies=c1) # # soup3 = BeautifulSoup(i3.text, features='lxml') # list_group = soup3.find(name='div', class_='listgroup') # # from bs4.element import Tag # # for child in list_group.children: # if isinstance(child, Tag): # project_tag = child.find(name='a', class_='mr-1') # size_tag = child.find(name='small') # temp = "项目:%s(%s); 项目路径:%s" % (project_tag.get('href'), size_tag.string, project_tag.string, ) # print(temp) # ############## 方式二 ############## # session = requests.Session() # # 1. 访问登陆页面,获取 authenticity_token # i1 = session.get('https://github.com/login') # soup1 = BeautifulSoup(i1.text, features='lxml') # tag = soup1.find(name='input', attrs={'name': 'authenticity_token'}) # authenticity_token = tag.get('value') # c1 = i1.cookies.get_dict() # i1.close() # # # 1. 携带authenticity_token和用户名密码等信息,发送用户验证 # form_data = { # "authenticity_token": authenticity_token, # "utf8": "", # "commit": "Sign in", # "login": "wupeiqi@live.com", # 'password': 'xxoo' # } # # i2 = session.post('https://github.com/session', data=form_data) # c2 = i2.cookies.get_dict() # c1.update(c2) # i3 = session.get('https://github.com/settings/repositories') # # soup3 = BeautifulSoup(i3.text, features='lxml') # list_group = soup3.find(name='div', class_='listgroup') # # from bs4.element import Tag # # for child in list_group.children: # if isinstance(child, Tag): # project_tag = child.find(name='a', class_='mr-1') # size_tag = child.find(name='small') # temp = "项目:%s(%s); 项目路径:%s" % (project_tag.get('href'), size_tag.string, project_tag.string, ) # print(temp)

Python requests模块知乎自动登录

#!/usr/bin/env python # -*- coding:utf-8 -*- import time import requests from bs4 import BeautifulSoup session = requests.Session() i1 = session.get( url='https://www.zhihu.com/#signin', headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36', } ) soup1 = BeautifulSoup(i1.text, 'lxml') xsrf_tag = soup1.find(name='input', attrs={'name': '_xsrf'}) xsrf = xsrf_tag.get('value') current_time = time.time() i2 = session.get( url='https://www.zhihu.com/captcha.gif', params={'r': current_time, 'type': 'login'}, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36', }) with open('zhihu.gif', 'wb') as f: f.write(i2.content) captcha = input('请打开zhihu.gif文件,查看并输入验证码:') form_data = { "_xsrf": xsrf, 'password': 'xxooxxoo', "captcha": 'captcha', 'email': '424662508@qq.com' } i3 = session.post( url='https://www.zhihu.com/login/email', data=form_data, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36', } ) i4 = session.get( url='https://www.zhihu.com/settings/profile', headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36', } ) soup4 = BeautifulSoup(i4.text, 'lxml') tag = soup4.find(id='rename-section') nick_name = tag.find('span',class_='name').string print(nick_name)

Python requests模块博客园自动登录

#!/usr/bin/env python # -*- coding:utf-8 -*- import re import json import base64 import rsa import requests def js_encrypt(text): b64der = 'MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQCp0wHYbg/NOPO3nzMD3dndwS0MccuMeXCHgVlGOoYyFwLdS24Im2e7YyhB0wrUsyYf0/nhzCzBK8ZC9eCWqd0aHbdgOQT6CuFQBMjbyGYvlVYU2ZP7kG9Ft6YV6oc9ambuO7nPZh+bvXH0zDKfi02prknrScAKC0XhadTHT3Al0QIDAQAB' der = base64.standard_b64decode(b64der) pk = rsa.PublicKey.load_pkcs1_openssl_der(der) v1 = rsa.encrypt(bytes(text, 'utf8'), pk) value = base64.encodebytes(v1).replace(b'\n', b'') value = value.decode('utf8') return value session = requests.Session() i1 = session.get('https://passport.cnblogs.com/user/signin') rep = re.compile("'VerificationToken': '(.*)'") v = re.search(rep, i1.text) verification_token = v.group(1) form_data = { 'input1': js_encrypt('wptawy'), 'input2': js_encrypt('asdfasdf'), 'remember': False } i2 = session.post(url='https://passport.cnblogs.com/user/signin', data=json.dumps(form_data), headers={ 'Content-Type': 'application/json; charset=UTF-8', 'X-Requested-With': 'XMLHttpRequest', 'VerificationToken': verification_token} ) i3 = session.get(url='https://i.cnblogs.com/EditDiary.aspx') print(i3.text)

Python requests模块拉勾网自动登录

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests # 第一步:访问登陆页,拿到X_Anti_Forge_Token,X_Anti_Forge_Code # 1、请求url:https://passport.lagou.com/login/login.html # 2、请求方法:GET # 3、请求头: # User-agent r1 = requests.get('https://passport.lagou.com/login/login.html', headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', }, ) X_Anti_Forge_Token = re.findall("X_Anti_Forge_Token = '(.*?)'", r1.text, re.S)[0] X_Anti_Forge_Code = re.findall("X_Anti_Forge_Code = '(.*?)'", r1.text, re.S)[0] print(X_Anti_Forge_Token, X_Anti_Forge_Code) # print(r1.cookies.get_dict()) # 第二步:登陆 # 1、请求url:https://passport.lagou.com/login/login.json # 2、请求方法:POST # 3、请求头: # cookie # User-agent # Referer:https://passport.lagou.com/login/login.html # X-Anit-Forge-Code:53165984 # X-Anit-Forge-Token:3b6a2f62-80f0-428b-8efb-ef72fc100d78 # X-Requested-With:XMLHttpRequest # 4、请求体: # isValidate:true # username:15131252215 # password:ab18d270d7126ea65915c50288c22c0d # request_form_verifyCode:'' # submit:'' r2 = requests.post( 'https://passport.lagou.com/login/login.json', headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', 'Referer': 'https://passport.lagou.com/login/login.html', 'X-Anit-Forge-Code': X_Anti_Forge_Code, 'X-Anit-Forge-Token': X_Anti_Forge_Token, 'X-Requested-With': 'XMLHttpRequest' }, data={ "isValidate": True, 'username': '15131255089', 'password': 'ab18d270d7126ea65915c50288c22c0d', 'request_form_verifyCode': '', 'submit': '' }, cookies=r1.cookies.get_dict() ) print(r2.text)

更多关于Python requests模块基础使用方法请查看下面的相关链接

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: