Python如何处理数据,利用python进行数据处理

  Python如何处理数据,利用python进行数据处理

  数据处理无处不在,掌握常用技能可以事半功倍。本文将使用Pandas进行数据处理和分析,并总结常用和有用的数据分析技巧。有兴趣的可以学习一下。

  

目录
1熊猫删除一列。2统计标题字数。3体裁频率统计。我用的熊猫版如下,也是顺便导入熊猫库的。

  进口熊猫作为pd

  警察。__版本_ _

  0.25.1

  在开始之前,确保解释器和数据集在同一个目录中:

  导入操作系统

  OS . chdir( d ://source/dataset )#这是我的数据集所在的目录。

  Os.listdir() #确认此目录中已经存在IMDB-Movie-Data数据集。

  [drinksbycountry.csv , IMDB-Movie-Data.csv , movietweetings , titanic_eda_data.csv , titanic_train_data.csv]

  准备工作就绪后,正式开始数据处理技能之旅。

  

1 Pandas 移除某列

  输入数据

  df=PD . read _ CSV( IMD b-Movie-data . CSV )

  Df.head(1) #导入并显示第一行

  排名标题类型.投票收入(百万元)

  0 1银河护卫队动作、冒险、科幻.757074 333.13 76.0

  [1行x 12列]

  使用pop方法删除指定的列:

  Meta=df.pop (Title )。to _ frame () #删除标题列

  确认它已被删除:

  Df.head(1) # df变成11列

  等级流派.收入(百万元)

  0 1动作、冒险、科幻.333.13 76.0

  [1行x 11列]

  

2 统计标题单词数

  pop后,获得meta,并显示meta的前3行:

  元标题(3)

  标题

  0银河护卫队

  1普罗米修斯

  2分割

  标题由空格分隔的单词组成。

  # .str.count( ) 1以获取字数

  meta[ words _ count ]=meta[ Title ]. str . count( )1

  Meta.head(3) # words_count列表示字数。

  标题字数_计数

  0银河护卫队4

  普罗米修斯1号

  2拆分1

  

3 Genre 频次统计

  我们来统计一下电影流派的出现频率,

  vc=df[流派]。值计数()

  电影类型的前5名如下所示,动作、冒险和科幻类出现的频率最高,为50次,其次是戏剧类,为48次:

  vc.head()

  动作,冒险,科幻50

  戏剧48

  喜剧、戏剧、爱情片35

  喜剧32

  戏剧,浪漫31

  Name:流派,dtype: int64

  显示前5名的饼图:

  将matplotlib.pyplot作为plt导入

  VC【:5】。plot(kind=pie )

  matplotlib.axes._subplots。0x000001D65B114948处的AxesSubplot对象

  plt.show()

  关于分享Python数据处理的三个实用技巧的这篇文章到此为止。有关Python数据处理的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: