matlab剔除异常值,箱线图剔除异常值

  matlab剔除异常值,箱线图剔除异常值

  解释

  数据分析教程正在规划编写中。欢迎大家添加微信sinbam提供意见、建议、纠错、提醒。

  识别异常值的箱线图。箱线图提供了一个识别异常值的标准,即异常值通常定义为小于QL-1.5IQR或大于QU1.5 IQR的值。

  方框图识别异常值。

  离群值是数据序列中的一个极值,要么很小,要么很大,因此影响数据序列的整体观测值。异常也称为极值,因为它们位于数据序列的两端。因为它的极值很高或很低,都可能影响整体观测,所以要从数据序列中剔除。

  箱线图,也称为箱线图,是一种典型的四分位之间的图解法,有助于定义上下限。任何超过上限和下限的数据都将被视为异常值。该图表的目的是识别异常值,并在进一步观察之前将它们从数据序列中删除,以便从研究中得出的结论可以给出更准确的结果,而不受任何极端值或异常值的影响。

  算法

  在序列的四分位数中:

  四分位距离IQR=Q3Q1

  下限=Q11.5 IQR。

  上限上限=Q3 1.5 IQR

  下限和上限之外的数据为异常值。

  原则

  即如果数据点低于Q1-1.5IQR或高于Q1-1.5IQR,则认为离中心值太远,不合理。可能你测量的时候碰了秤,或者你的实验室伙伴是个傻逼,你不应该让他碰任何设备。谁知道呢?但是不管他们的原因是什么,离群值是那些看起来不“适合”的。

  为什么是异常值框宽度的1.5倍?为什么这个特定的值标志着“可接受”和“不可接受”值之间的区别?因为,当约翰图基在1977年发明显示这些值的盒须图时,他选择了1.5IQR作为异常值的未标记线。这个管用,所以我们一直用这个值。如果你深入研究统计学,你会发现,对于钟形数据来说,这个合理性度量意味着只有大约百分之一的数据是异常值。

  代码实现

  Python中的熊猫库:

  进口熊猫作为pd

  df=PD . read _ CSV( https://www . Gai ruo . com/file/data/team . CSV )

  df.head()

  命名团队Q1 Q2 Q3 Q4

  0肝脏E 555 21 24 64

  1 Arry C 36 888 37 57

  2 Ack A 57 60 18 84

  3乔治C 93 96 71 78

  4 Oah D 65 49 61 86

  #构建异常值

  df.at[0, Q1]=555

  df.at[1, Q2]=888

  df.at[2, Q4]=-111

  #检测到的异常值设置为nan

  定义框_图_异常值:

  q1,q3=标准分位数(. 25),标准分位数(. 75)

  iqr=q3 - q1

  低,上=q1 - 1.5*iqr,q3 1.5*iqr

  离群值=s.mask((sup))

  返回异常值

  #应用程序

  df.head()。loc[: Q1:]。应用(方框图异常值)

  Q1 Q2第三季度第四季度

  0南21.0 24.0 64

  1 36.0南37.0 57

  2 57.0 60.0南84

  3 93.0 96.0 71.0 78

  4 65.0 49.0 61.0 86

  涉及

  https://www.purplemath.com/modules/boxwhisk3.htm

  https://www . whatsissixsigma . net/box-plot-diagram-to-identify-outliers/

  https://www.zhihu.com/question/36172806

  相关内容

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: