python操作html文件,python bs4获取标签文本

  python操作html文件,python bs4获取标签文本

  美汤概述(简称bs4)。

  一个Python库,可以从HTML或XML文件中提取数据。您可以使用您喜欢的转换器来导航、搜索和修改常规文档,从而节省时间。

  所有的物体都可以分为四类。

  标签:标签对象,例如

  yoyoketang

  这是标签中的可导航字符串。正文,比如,这里是我的微信微信官方账号:yoyoketagn

  美丽的汤:整个html对象

  评论:比如评论对象!-对于HTML5 -,这实际上是一个特殊的可导航字符串。

  安装pip安装beautifulsoup4

  1.从标签的名称中获取标签对象。如果有多个相同的标记名,将返回第一个soup.head。

  2.获取标签soup.head.title.string的文本

  3.tag.attrs可以打印所有属性并恢复为字典格式。获取其中一个属性,与操作字典相同,如tag.attrs[href]或tag[href]。因为通常有许多中间有间隔的类属性,所以类属性

  4.查找元素,find_all查找满足所有请求的内容,返回一个list对象。

  5.get_text))获取tag标签下的所有文本。

  6.替换字符串中的特殊字符。

  练习1

  从bs4导入BeautifulSoup

  htmldemo=

  yoyoketang

  这是我的微信微信官方账号。yoyoketang

  拉菲德勒教程

  电脑笔记本

  Selenium文档

  赶紧注意!

  ""

  #html.parser是一个解析器。

  soup=beautifulsoup(htmldemo, html.parser ).

  获取#标签标题

  Print (soup.head))。

  获取#字符

  Print (soup.head.title.string))。

  Print (soup.a.attrs))。

  print(soup.a.attrs[href]

  print(soup.a[href]

  #class search不能使用class直接搜索。class_=姐姐

  s=soup.find_all(class_=sister ).

  #第二次搜索

  S2=s[0]。find_all(id=p ).

  按#id搜索

  m=soup.find_all(id=link3 )).

  获取#标签下的所有文本。

  t=soup.body.get_text(

  练习2

  从bs4导入BeautifulSoup

  导入请求

  导入操作系统

  #请求获取所有图像URL和标题的图像地址

  r=requests . get(http://699 pic.com/sousuo-218808-13-1.html))))).

  soup=beautifulsoup(r.content, html.parser ).

  images=soup . find _ all(class _= lazy )).

  cur path=OS . path . dirname(OS . path . real path(_ _ file _ _))

  对于图像中的我:

  jpg_url=i[data-original]

  title=i[title]

  打印(jpg _ URL))

  是打印(标题)

  打印()。

  #下载获取的图像,并将其下载到curpath,其名称为title.jpg。

  withopen(Curpath(((标题)。jpg)、(wb))作为f:

  f.write(requests.get ) jpg _ URL(。内容)).

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: