kd树的搜索过程到底是怎么进行的？

1 引言

前面的文章中 $kd$ 树来解决，下面开始介绍其具体原理。

$kd$ 树

$kd$ 树构造

$kd$ $k$ $k$ $kd$ $k$ 维的样本点[1]。在二叉搜索树中，任意节点中的值都大于其左子树中的所有值，小于或等于其右子树中的所有值，如图1所示。

图 1. 二叉搜索树

$kd$ $kd$ $k$ $kd$ $k$ $x,y$ $x$ $y$ $x$ $kd$ 树，每次会选择当前子树中对应维度的中位数作为切分点。

$kd$ 树。

图 2. kd树示例

$x$ $x$ $y$ $y$ $kd$ 树交替选择特征维度对样本空间进行划分的特性，以图2中的划分方式还能得到如图3所示的特征空间。

图 3. kd树特征空间

$kd$ $kd$ 树来完成搜索任务。

$kd$ 树搜索

$kd$ $kd$ $q$ $q$ $kd$ $kd$ $q$ 的距离小于全局最短距离，那么更新全局最佳点和全局最短距离；如果被搜索点到当前节点划分维度的距离小于全局最短距离，那么再递归遍历当前节点另外的一个子树，直至整个递归过程结束。具体步骤可以总结为[2]：

(1) 设定一个当前全局最佳点和全局最短距离，分别用来保存当前离搜索点最近的样本点和最短距离，初始值分别为空和无穷大；
(2) 从根节点开始，并设其为当前节点；
(3) 如果当前节点为空，则结束；
(4) 如果当前节点到被搜索点的距离小于当前全局最短距离，则更新全局最佳点和最短距离；
(5) 如果被搜索点的划分维度小于当前节点的划分维度，则设当前节点的左孩子为新的当前节点并执行步骤(3)(4)(5)(6)；反之设当前节点的右孩子为新的当前节点并执行步骤(3)(4)(5)(6)；
(6) 如果被搜索点到当前节点划分维度的距离小于全局最短距离，则说明全局最佳点可能存在于当前节点的另外一个子树中，所以设当前节点的另外一个孩子为当前节点并执行步骤(3)(4)(5)(6)；

$kd$ 树中离被搜索点最近的样本点。

这里需要明白一点的是，利用步骤(6)中的规则来判断另外一个子树中是否可能存在全局最佳点的原理如图4所示。

图 4. 子空间排除原理图

$d$ $r$ $d$ ，那么此时左子树中就不可能存在更优的全局最佳点。

当然，上述步骤还可以通过一个更清晰的伪函数来进行表达：


1
bestNode, bestDist = None, inf
2
def NearestNodeSearch(curr_node):
3
    if curr_node == None:
4
        return
5
    if distance(curr_node, bestNode) <bestDist:
6
        bestDist = distance(curr_node, bestNode)
7
        bestNode = curr_node
8
    if q_i < curr_node_i:
9
        NearestNodeSearch(curr_node.left)
10
    else:
11
        NearestNodeSearch(curr_node.right)
12
    if |curr_node_i - q_i| < bestDist:
13
        NearestNodeSearch(curr_node.other)

在上述代码中，q_i和curr_node_i分别表示被搜索点和当前节点的划分维度；curr_node.other表示curr_node.left和curr_node.right中先前未被访问过的子树。

2.3 最近邻搜索示例

$kd$ $q$ $kd$ $q$ 点最近的样本点。

图 5. 最近邻搜索图

在搜索伊始，全局最佳点和全局最短距离分别为空和无穷大。第1次递归：此时设根节点[9,10]为当前节点，因满足步骤(4)当前节点到被搜索点的距离小于当前全局最短距离，所以更新当前最佳点为[9,10]，全局最短距离为7.07。接着，由于被搜索点的划分维度10大于当前节点的划分维度9，因此设当前节点的右孩子[15,6]为新的当前节点。第2次递归：继续执行步骤(4)，由于此时当前节点到被搜索点的距离为5.83，小于全局最短距离，所以更新当前最佳点为[15,6]，全局最短距离为5.83。进一步，由于被搜索点的划分维度3小于当前节点的划分维度6，因此设当前节点的左孩子[10,4]为新的当前节点。第3次递归：继续执行步骤(4)，由于此时当前节点到被搜索点的距离为1，小于全局最短距离，所以更新当前最佳点为[10,4]，全局最短距离为1。此时，由于被搜索点的划分维度10大于等于当前节点的划分维度10，因此设当前节点的右孩子为新的当前节点，并进入第4次递归。

$x=10$ $kd$ $y=6$ $x=9$ $kd$ 树中离被搜索点[10,3]最近的样本点。

$kd$ $kd$ 树中来搜索离[8.9,4]最近的样本点。在搜索过程中会发现，一开始会从根节点进入左子树，并找到[8,5]为当前全局最佳点。但是当一步步回溯后会发现，原来右子树中的[10,4]才是真正离[8.9,4]最近的样本点。

$kd$ 树搜索

$kd$ $kd$ 树搜索过程。需要注意的是，这里的两个“K”分别表示两种不同的含义，前者表示要搜索得到离给定点最近的K个样本点，而后者表示的是样本点的维度。

总的来说K最近邻的搜索过程和最近邻的搜索过程类似，只是需要额外的维护一个大小为K的有序列表。在整个列表中，当前距离被搜索点最近的样本点放在首位，而距离被搜索点最远的样本点放在末尾。具体的搜索过程可以总结为：

(1) 设定大小为K的有序列表用来保存当前离搜索点最近的K个样本点；
(2) 从根节点开始，并设其为当前节点；
(3) 如果当前节点为空，则结束；
(4) 如果列表不满，则直接将当前样本插入到列表中；如果列表已满，则判断当前样本到被搜索点的距离是否小于列表最后一个元素到被搜索点的距离，成立则将列表中最后一个元素删除，并插入当前样本；（每次插入后仍有序）
(5) 如果被搜索点的划分维度小于当前节点的划分维度，则设当前节点的左孩子为新的当前节点并执行步骤(3)(4)(5)(6)；反之设当前节点的右孩子为新的当前节点并执行步骤(3)(4)(5)(6)；
(6) 如果列表不满，或者如果被搜索点到当前节点划分维度的距离小于列表中最后一个元素到被搜索点的距离，则设当前节点的另外一个孩子为当前节点并执行步骤(3)(4)(5)(6)；

递归完成后，此时离被搜索点最近的K个样本点就是有序列表中的K个元素。

上述步骤同样可以通过一个更清晰的伪函数来进行表达：


xxxxxxxxxx
16
1
KNearestNodes, n = [], 0
2
def NearestNodeSearch(curr_node):
3
    if curr_node == None:
4
        return
5
    if n < K:
6
        KNearestNodes.insert(curr_node)  # 插入后保持有序
7
    if n >= K and
8
        distance(curr_node, q) < distance(curr_node, KNearestNodes[-1]):
9
        KNearestNodes.pop()
10
        KNearestNodes.insert(curr_node)  # 插入后保持有序
11
    if q_i < curr_node_i:
12
        NearestNodeSearch(curr_node.left)
13
    else:
14
        NearestNodeSearch(curr_node.right)
15
    if n < K or | curr_node_i - q_i | < distance(q, KNearestNodes[-1]):
16
        NearestNodeSearch(curr_node.other)

在上述代码中，KNearestNodes[-1]表示取有序列表中的最后一个元素；q_i和curr_node_i分别表示被搜索点和当前节点的划分维度；curr_node.other表示curr_node.left和curr_node.right中先前未被访问过的子树。

2.5 K近邻搜索示例

$kd$ 树为例，来搜索离[10,3]最近的3个样本点。

在搜索伊始，有序列表为空，K为3。第一次递归：此时设根节点[9,10]为当前节点，因满足步骤(4)中的列表为空的条件，所以直接将根节点加入列表中，即此时KNearestNodes=([9,10])。接着，由于被搜索点的划分维度10大于当前节点的划分维度9，因此设当前节点的右孩子[15,6]为新的当前节点。第2次递归：继续执行步骤(4)，由于此时列表未满，所以直接将当前节点插入列表中，即此时KNearestNodes=([15,6], [9,10])。进一步，由于被搜索点的划分维度3小于当前节点的划分维度6，因此设当前节点的左孩子[10,4]为新的当前节点。第3次递归：继续执行步骤(4)，由于此时列表未满，所以直接将当前节点插入列表中，且由于[10,4]当前离被搜索点最近，所以应该放在列表最前面，即此时KNearestNodes=([10,4], [15,6], [9,10])。进一步，由于被搜索点的划分维度10大于等于当前节点的划分维度10，所以设当前节点的右孩子为新的当前节点，并进入第4次递归。

$x=10$ $y=6$ 的距离为3，小于被搜索点到[9,10]的距离7.07，说明在当前节点[15,6]的右子树中可能存在一个比[9,10]更佳的样本点。所以设[15,6]的右孩子[12,13]为新的当前节点。第6次递归：此时列表已满，且由于当前节点到被搜索点的距离10.19，大于被搜索点到[9,10]的距离，所以继续执行步骤(5)。由于被搜索点的划分维度10小于当前节点的划分维度12，所以设[11,14]为新的当前节点，并进入第7次递归。

$y=14$ 的距离为11，大于被搜索点到有序列表中最后一个样本点距离，所以第7次递归结束并回到第6次递归。

$x=12$ 的距离为2，小于被搜索点到有序列表中最后一个样本点的距离，说明当前节点[12,13]的右子树中存在比[9,10]更近的点（可以想象假设存在点[12.1,6.1]），所以设[12,13]的右孩子为新的当前节点。第9次递归：由于此时当前节点为空，所以第9次递归结束并返回到第6次递归中，即此时的当前节点为[12,13]，且已经执行完步骤(6)，进而返回到第2次递归。返回到第2次递归后，此时的当前节点为[15,6]，且已执行完步骤(6)，进而返回到第1次递归中。

$x=9$ 的距离为1，小于被搜索点到有序列表中最后一个样本点的距离，说明当前节点[9,10]的左子树中存在比[9,10]更近的点（从图5-7中一眼便能看出，例如点[8,5]），所以设[5,7]为新的当前节点。第10次递归：此时列表已满，但由于当前节点到被搜索点的距离6.4，小于被搜索点到有序列表中最后一个样本点[9,10]的距离7.07，因此更新KNearestNodes=([10,4], [15,6], [5,7])，并继续执行步骤(5)。由于被搜索点的划分维度3小于当前节点的划分维度7，所以设[8,5]为新的当前节点，并进入第11次递归。

$x=8$ 的距离为2，小于被搜索点到有序列表中最后一个样本点的距离，所以设[6,3]为新的当前节点，并进入第13次递归。

$y=3$ 的距离为0，小于被搜索点到有序列表中最后一个样本点的距离，说明[6,3]的左子树中存在比[6,3]更近的点（可以想象假设存在点[7,2.9]），所以设[6,3]的左孩子为新的当前节点，并进入第15次递归。

$y=7$ 的距离4，大于等于被搜索点到有序列表中最后一个样本点[6,3]的距离，所以[5,7]的右子树中不可能存在比[6,3]更近的点，故返回第1次递归。

$kd$ 树中离被搜索点[10,3]最近的3个样本点，即KNearestNodes=([10,4], [8,5], [6,3])。整个递归过程顺序如图6所示。

图 6. K近邻搜索递归过程顺序

到此，对于K近邻算法的原理就介绍完了。

3 总结

$kd$ $kd$ $kd$ $kd$ 树中来搜索离给定点最近的K个样本点，即K近邻搜索。

本次内容就到此结束，感谢您的阅读！如果你觉得上述内容对你有所帮助，欢迎分享至一位你的朋友！若有任何疑问与建议，请添加笔者微信'nulls8'或加群进行交流。青山不改，绿水长流，我们月来客栈见！

引用

[1] https://en.wikipedia.org/wiki/K-d_tree

[2] http://web.stanford.edu/class/cs106l/

kd树的搜索过程到底是怎么进行的？

于2021年7月23日2021年7月23日由空字符发布

1 引言

$kd$ 树

$kd$ 树构造

$kd$ 树搜索

2.3 最近邻搜索示例

$kd$ 树搜索

2.5 K近邻搜索示例

3 总结

引用

机器学习

从零实现ID3与C4.5决策树算法

机器学习

高斯朴素贝叶斯原理与实现

机器学习

三种常见的聚类内部评价指标

kd树的搜索过程到底是怎么进行的？

于2021年7月23日2021年7月23日由 空字符 发布

1 引言

2 kd树

2.1 kd树构造

2.2 最近邻kd树搜索

2.3 最近邻搜索示例

2.4 K近邻kd树搜索

2.5 K近邻搜索示例

3 总结

引用

相关文章

机器学习

从零实现ID3与C4.5决策树算法

机器学习

高斯朴素贝叶斯原理与实现

机器学习

三种常见的聚类内部评价指标

于2021年7月23日2021年7月23日由空字符发布

$kd$ 树

$kd$ 树构造

$kd$ 树搜索

$kd$ 树搜索