Python预处理,python数据集的预处理

　　1、缺失数据的处理

　　导入的数据经常会丢失，最简单的处理方法是删除丢失的数据行。使用。dropna()在pandas中删除带有缺失值的行或列，或者删除特定列的缺失值。

　　Df=dfdata.dropna (axis=0)) #删除有缺失值的行有时会填充或替换缺失值，这里就不介绍了。

　　2、重复数据的处理

　　对于重复数据，通常会删除重复的行。使用。pandas中的duplicated()查询重复数据的内容，并使用。drop_duplicated()删除重复数据或对指定的数据列进行重复数据删除。

　　df=df data . drop _ duplicates(in place=true)#删除重复的数据行3、异常值处理

　　数据可能包含异常值，这意味着一个样本中的值明显偏离样本集中其他样本的观察值，也称为异常值。离群值可以通过箱线图、正态分布图、回归和聚类建模来识别。

　　盒图技术是利用数据的分位数来识别异常点。盒图分析超出了本文的内容，所以不能详细介绍。一般来说，通过观察盒图，可以看到整体的异常情况，找到异常值。

　　Df.boxplot () #绘制方框图以上是python数据预处理的三种情况。希望对你有帮助。更多python学习方向：Python基础课程

　　推荐操作环境：windows7系统，Python 3.9.1，戴尔G3电脑。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。