坐标归一化处理有什么用,归一化坐标系

  坐标归一化处理有什么用,归一化坐标系

  数据规范化是数据挖掘中特征向量表示的关键问题。在特征排列不同的情况下,由于特征本身的表现方式不同,绝对值小的数据有时会被大数据“吞噬”。在这种情况下,有必要对提取的特征向量进行归一化,以便分类器平等地对待所有特征。描述一些常见的标准化方法,并提供相应的python实现。其实挺简单的。

  1,0,1)标准化:

  这是能想到的最简单易行的方法。它通过遍历特征向量中的所有数据来记录Max和Min,并以Max-Min为基数(即Min=0,Max=1)对数据进行归一化处理。

  latex:{ x } _ { normalization }=frac { x-min } { max-min }

  Python实现:

  defMaxMinnormalization(x,max,min):x=(x-min)/)max-min;x;求大小,用np.max(和np.min)就行了。除非你喜欢在列表中管理数字,否则不要使用python内置的max))和min))。

  2.z分数标准化:

  这种方法给出了原始数据的均值(均值)和标准差(标准差),并对数据进行了标准化处理。处理后的数据符合标准正态分布:平均值为0,标准差为1。这里重要的是复合标准正态分布。个人认为一定程度上改变了特征的分布。欢迎讨论关于经验。这个标准化我不太了解。转换函数如下:

  latex:{ x } _ { normalization }=\ frac { x-\ mu }

  Python实现:

  defz_scorenormalization(x,mu,sigma):x=(x-mu)/sigma;x;也可以用mu(即均值)是np.average)和sigma(即标准差)是np.std)。

  3.Sigmoid函数

  Sigmoid函数是一个具有S形曲线的函数,是一个很好的阈值函数。(0,0.5)是中心对称的,在(0,0.5)附近有很大的倾斜,但是当数据趋于正无穷大和负无穷大时,shot值就无限趋于1和0。我个人认为是用最喜欢的“归一化方法”引号括起来的,因为Sigmoid函数也擅长阈值分割。您可以通过更改表达式来更改分段阈值。这里,作为标准化方法,仅考虑具有(0,0.5)作为分割阈值的点:

  乳胶:{ x } _ {规范化}=frac {1} { e } ^ {-x }

  Python实现:

  efsigmoid(x,use status):ifuse status:return 1.0/)1np . exp(-float)x);Else:返回floating(x;这里管理useStatus是否使用sigmoid状态,方便调试和使用。

  函数的基本属性:

  定义域: ",",值域:" 1,1 ""1,1 " "函数可以在定义域中任何一个连续光滑的函数上求导,导数为f((x )=f) (x)) (1f) (x)。初始阶段,呈指数级增长;随着它开始饱和,它的增长将会放缓。最后到了成熟期,就停止增长了。

  二、Sigmoid函数与logistic回归Sigmoid函数之所以叫Sigmoid,是因为函数的图像要加上字母s,这个函数是一个有趣的函数,从图像中可以观察到一些直观的特征。该函数的可能值在0和1之间,并且围绕0.5对称。越接近x=0,可能值的斜率越大。

  机器学习中一个重要预测模型的逻辑回归(LR)是基于Sigmoid函数的。LR模型的主要任务是给出几个历史{X,Y},其中X是样本的n个特征值,y {0,1}的值代表正反例。通过对这些历史样本的学习可以得到数学模型,并给出新的LR模型是对X的二元分类模型,以预测是否会发生。但实际上,当事件发生时,往往无法得到100%的预测,所以LR可以得到事件发生的可能性。超过50%的人认为有事件发生,不到50%的人认为没有事件发生。

  从LR的目的来说,选择函数需要满足两个条件。

  1.取值范围在0到1之间。

  2.对于事件的发生,50%是结果的分水岭,选择函数在0.5处应该是中心对称的。

  根据这两个条件,乙状结肠很好的满足了LR的需求。关于logistic回归的具体实现及相关问题,可以参见本文中的逻辑函数(sigmoid函数)——文君的博客,此处省略解释。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: