机器学习基础之常见距离计算_环球热点评

来源:哔哩哔哩 发布时间:2023-06-23 17:05:44

个人学习记录,若有侵权,请联系删除。 

一、欧氏距离(Euclidean Distance)

欧氏距离是最容易直观理解的度量方法。即两点之间的距离

如点


【资料图】

和点

之间的距离为:

缺点:欧氏距离并非尺度不变,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧氏距离度量之前,需要对数据进行归一化处理。

二、标准化欧氏距离(Standard Euclidean Distance)

标准化欧氏距离是针对欧氏距离的缺点而作的一种改进,但要求必须基于一个数据集的分布

思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等,即使得各个维度分别满足标准正态分布。假设样本集X的均值为m,标准差为s,X的标准化变量表示为

如两个n维向量

间的标准化欧氏距离公式为:

三、曼哈顿距离(Manhattan Distance)

在曼哈顿街区要从一个十字路口开车到另一个十字路口,直观上看,绿线的距离最短,但在现实中显然是不成立的,因为我们不能穿过房屋。驾驶距离显然不是两点间的直线距离,这些实际驾驶距离就是“曼哈顿距离”,也称为“街区距离”

红蓝黄线均为曼哈顿距离,绿线为欧氏距离

如两个n维向量

间的曼哈顿距离公式为:

四、切比雪夫距离(Chebyshev Distance)

切比雪夫距离来源于国际象棋,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从一个格子走到另一个格子最少需要多少步?这个距离就是切比雪夫距离如两个n维向量

间的切比雪夫距离公式为:

五、闵可夫斯基距离(Minkowski Distance)

1、闵可距离的定义

两个n维向量

间的闵可夫斯基距离公式为:

其中p是一个变参数

当p=1时,就是曼哈顿距离

当p=2时,就是欧氏距离

当p=无穷时,就是切比雪夫距离

2、闵可距离的缺点

1)将各个分量的量纲,也就是“单位”当作相同的看待了

2)没有考虑各个分量的分布(期望,方差等)可能是不同的

关键词:
x
x

Copyright ©  2015-2023 港澳汽车网版权所有  备案号:京ICP备2023022245号-31   联系邮箱:435 226 40 @qq.com