#PRML #Math
在机器学习中常常会用到一些距离,本文简单地介绍了几种常见的距离及其计算方法。

Cosine Distance

几何中,夹角余弦可用来衡量两个向量方向的差异;机器学习中,借用这一概念来衡量样本向量之间的差异。

https://pic4.zhimg.com/80/v2-b14264db5b2869ab3131822991675d17_1440w.webp

$$
\text{Cosine Distance}=1-\cos\theta
$$

Euclidean Distance

$$
d=\sqrt{\sum^n_{i=1}(x_i-y_i)^2}
$$

向量表示法:

$$
d=\sqrt{(\vec{a}-\vec{b})(\vec{a}-\vec{b})^T}
$$

Jaccard Distance

Jaccard系数公式:

$$
J(A,B)=\dfrac{|A\cap B|}{|A\cup B|}=\dfrac{|A\cap B|}{|A|+|B|-|A\cap B|}
$$

Jaccard Distance:

$$
J_\delta(A,B)=1-J(A,B)=\dfrac{|A\cup B|-|A\cap B|}{|A\cup B|}
$$

Manhattan Distance

又称城市街区距离,使用两个点在标准坐标系上的绝对轴距总和来表示。

图中红、蓝、黄色表示Manhattan Distance,绿色为Euclidean Distance

图中红、蓝、黄色表示Manhattan Distance,绿色为Euclidean Distance

Reference

多种评价相似性算法(余弦定理,Jaccard,曼哈顿距离等)
机器学习数学基础之 欧式距离、曼哈段距离 - swsyya - 博客园
机器学习数学基础之 杰卡德(Jaccard)距离、余弦距离 - swsyya - 博客园

最后修改日期: 2023年 11月 8日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。