C语言经典算法之k最近邻（K-Nearest Neighbor, KNN）算法

这篇具有很好参考价值的文章主要介绍了C语言经典算法之k最近邻（K-Nearest Neighbor, KNN）算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

A.建议

B.简介

一代码实现

二时空复杂度

A.时间复杂度：

B.空间复杂度：

C.总结：

三优缺点

A.优点：

B.缺点：

四现实中的应用

前言

A.建议

1.学习算法最重要的是理解算法的每一步，而不是记住算法。

2.建议读者学习算法的时候，自己手动一步一步地运行算法。

B.简介

k最近邻（K-Nearest Neighbor, KNN）算法是一种基于实例的学习方法，主要用于分类和回归问题。在机器学习中，它不预先假设数据分布模型，而是直接存储训练样本，并在预测阶段根据新样本与已有训练样本之间的相似度进行决策。

一代码实现

使用C语言实现K最近邻（K-Nearest Neighbor, KNN）算法通常涉及以下步骤：

定义数据结构：首先，需要定义存储训练样本和测试样本的数据结构。这可能包括特征向量、类标签以及用于计算距离的函数指针等。

typedef struct {
    double *features; // 特征向量，例如double features[N_FEATURES];
    int label;        // 类别标签
} Sample;

// 假设我们已经有了一个预处理好的样本集
Sample trainingSet[TRAINING_SET_SIZE];

计算距离：选择一种距离度量方法，如欧氏距离或曼哈顿距离，并编写函数来计算测试样本与每个训练样本之间的距离。

double euclideanDistance(Sample s1, Sample s2) {
    int i;
    double distance = 0.0;
    for (i = 0; i < N_FEATURES; ++i) {
        distance += pow(s1.features[i] - s2.features[i], 2);
    }
    return sqrt(distance);
}

// 或者用曼哈顿距离
double manhattanDistance(Sample s1, Sample s2) {
    int i;
    double distance = 0.0;
    for (i = 0; i < N_FEATURES; ++i) {
        distance += abs(s1.features[i] - s2.features[i]);
    }
    return distance;
}

排序邻居：对于给定的测试样本，计算它与所有训练样本的距离，并根据距离从近到远排序。

#include <stdlib.h>
#include <stdio.h>

// 假设有函数对距离进行排序
void sortSamplesByDistance(Sample* samples, double* distances, int n) {
    // 这里应实现一个快速排序、归并排序或其他合适算法对distances数组进行排序，并相应调整samples顺序
}

// 应用排序函数
Sample sortedNeighbors[TRAINING_SET_SIZE];
double distances[TRAINING_SET_SIZE];

for (int i = 0; i < TRAINING_SET_SIZE; ++i) {
    distances[i] = euclideanDistance(testSample, trainingSet[i]);
}
sortSamplesByDistance(trainingSet, distances, TRAINING_SET_SIZE);

确定K个最近邻及其类别：取出排序后最近的K个邻居，并统计各个类别的出现次数。

int classCounts[NUM_CLASSES] = {0};
for (int k = 0; k < K_VALUE; ++k) {
    int currentClass = sortedNeighbors[k].label;
    classCounts[currentClass]++;
}

// 找到出现次数最多的类别
int predictedClass;
int maxCount = 0;
for (int c = 0; c < NUM_CLASSES; ++c) {
    if (classCounts[c] > maxCount) {
        maxCount = classCounts[c];
        predictedClass = c;
    }
}

完整代码示例：下面是一个简化的KNN分类器的整体框架，但请注意，实际应用中还需要考虑边界检查、内存管理、更高效的搜索策略（如kd树或球树）以及异常处理等问题。

#include <stdio.h>
#include <stdlib.h>
#include <math.h>

#define N_FEATURES 10 // 示例特征数量
#define TRAINING_SET_SIZE 1000 // 示例训练集大小
#define K_VALUE 5 // K值

typedef struct {
    double features[N_FEATURES];
    int label;
} Sample;

double euclideanDistance(Sample s1, Sample s2) {/* 实现欧氏距离计算 */}

void knnClassifier(Sample testSample, Sample trainingSet[], int numTrainingSamples, int K) {
    double distances[numTrainingSamples];
    Sample sortedSamples[numTrainingSamples];

    // 计算距离并排序
    for (int i = 0; i < numTrainingSamples; ++i) {
        distances[i] = euclideanDistance(testSample, trainingSet[i]);
    }
    // 这里假设已有一个排序函数
    sortDistancesAndSamples(distances, sortedSamples, trainingSet, numTrainingSamples);

    // 统计K个最近邻的类别
    int classCounts[NUM_CLASSES] = {0};
    for (int k = 0; k < K; ++k) {
        int currentClass = sortedSamples[k].label;
        classCounts[currentClass]++;
    }

    // 确定预测类别
    int predictedClass = findMaxCountClass(classCounts);

    printf("Predicted class: %d\n", predictedClass);
}

int main() {
    // 初始化训练集、加载测试样本
    // ...
    
    Sample testSample;
    // 假设testSample已经被初始化
    
    knnClassifier(testSample, trainingSet, TRAINING_SET_SIZE, K_VALUE);

    return 0;
}

上述代码仅为说明目的，并未提供完整的排序和查找最大计数类别的函数实现。在实际编程时，请根据项目需求和实际情况完善这些部分。