『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题

这篇具有很好参考价值的文章主要介绍了『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题,新星计划免费学习专栏·数据结构与算法,排序算法(C语言版),算法,c语言,数据结构,堆

目录

TopK函数实现

如何测试

完整源码 


『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题,新星计划免费学习专栏·数据结构与算法,排序算法(C语言版),算法,c语言,数据结构,堆

生活中我们经常能见到TopK问题,例如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

所以,TopK问题即求出一组数据中前K个最大或最小的元素,一般情况下,数据量都比较大。

对于TopK问题,我们首先想到的可能是排序,对数据排好序以后,取前K个元素。但是,面对庞大的数据量时,排序并不适用,因为加载庞大的数据到内存中是个不小的消耗。

所以,对于TopK问题,最佳的解决方式是用堆

思路如下:

1.取数据前K个元素来建堆;

若要求前K个最大的元素,则建小堆;

若要求前K个最小的元素,则建大堆;

2.用剩余的N-K个元素依次与堆顶元素进行比较,若大于堆顶元素,则赋值给堆顶元素,并向下调整。(取前K个最小元素则是小于)。

将剩余N-K个元素依次与堆顶元素比较完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

此算法的时间复杂度为 O(N*log K)

TopK函数实现

void PrintTopK(int* a, int n, int k)
{
	Heap hp;
    //初始化堆
	HeapInit(&hp);
	
	//对数组的前K个元素进行建堆
	HeapCreate(&hp, a, k);

	//依次比较剩余N-K个元素与堆顶元素
	for (int i = k; i < n; i++)
	{
		if (a[i] > hp.a[0])
		{
			//若大于则赋值
			hp.a[0] = a[i];
		}
		//向下调整
		AdjustDown(hp.a, k, 0);
	}

	//打印堆中的K个元素,即为TopK的元素
	for (int i = 0; i < k; i++)
	{
		printf("%d ", hp.a[i]);
	}
}

如何测试

生成1000个小于1000000的随机数,将其中10个修改为大于1000000的数,若程序执行后可以得到这10个数,即测试成功。

void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	for (size_t i = 0; i < n; ++i)
	{
		a[i] = rand() % 1000000;
	}
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	PrintTopK(a, n, 10);
}

结果如下:

『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题,新星计划免费学习专栏·数据结构与算法,排序算法(C语言版),算法,c语言,数据结构,堆

完整源码 

若对堆的知识不太了解,没关系,这里为你准备了简要但透彻的堆的讲解⇢二叉树的顺序结构——堆的概念&&实现(图文详解+完整源码 | C语言版)

#include<stdio.h>
#include<stdlib.h>
#include<assert.h>
#include<string.h>
#include<stdbool.h>

typedef int HPDataType;

typedef struct Heap
{
	HPDataType* a;   //存储数据
	int size;				//堆有效数据的大小
	int capacity;			//堆的容量
}Heap;

//给出一个数组,对它进行建堆
void HeapCreate(Heap* php, HPDataType* a, int n);
//堆的初始化
void HeapInit(Heap* php);
//对申请的内存释放
void HeapDestroy(Heap* php);
//添加数据
void HeapPush(Heap* php, HPDataType data);
//删除数据
void HeapPop(Heap* php);
//向上调整算法
void AdjustUp(HPDataType* a, int child);
//向下调整算法
void AdjustDown(HPDataType* a, int n, int parent);
//打印堆的数据
void HeapPrint(Heap* php);
//判断堆是否为空
bool HeapEmpty(Heap* php);
//返回堆的大小
int HeapSize(Heap* php);
//返回堆顶的数据
HPDataType HeapTop(Heap* php);
//交换函数
void Swap(HPDataType* p1, HPDataType* p2);


void PrintTopK(int* a, int n, int k)
{
	Heap hp;
	HeapInit(&hp);
	
	//对数组的前K个元素进行建堆
	HeapCreate(&hp, a, k);

	//依次比较剩余N-K个元素与堆顶元素
	for (int i = k; i < n; i++)
	{
		if (a[i] > hp.a[0])
		{
			//若大于则赋值
			hp.a[0] = a[i];
		}
		//向下调整
		AdjustDown(hp.a, k, 0);
	}

	//打印堆中的K个元素,即为TopK的元素
	for (int i = 0; i < k; i++)
	{
		printf("%d ", hp.a[i]);
	}
}

void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	for (size_t i = 0; i < n; ++i)
	{
		a[i] = rand() % 1000000;
	}
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	PrintTopK(a, n, 10);
}

int main()
{
	TestTopk();
	return 0;
}

void HeapCreate(Heap* php, HPDataType* a, int n)
{
	assert(php);
	php->a = (HPDataType*)malloc(sizeof(HPDataType) * n);
	if (php->a == NULL)
	{
		perror("malloc fail");
		exit(-1);
	}
	//将数组的内容全部拷贝到堆中
	memcpy(php->a, a, sizeof(HPDataType) * n);
	php->size = php->capacity = n;

	//建堆算法
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(php->a, n, i);
	}
}

void HeapInit(Heap* php)
{
	assert(php);

	php->a = NULL;
	php->size = php->capacity = 0;
}

void HeapPrint(Heap* php)
{
	assert(php);

	for (int i = 0; i < php->size; i++)
	{
		printf("%d ", php->a[i]);
	}
}

void HeapDestroy(Heap* php)
{
	assert(php);

	free(php->a);
	php->a = NULL;
	php->capacity = php->size = 0;
}

void HeapPush(Heap* php, HPDataType data)
{
	assert(php);
	//如果容量不足就扩容
	if (php->size == php->capacity)
	{
		int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newCapacity);

		if (tmp == NULL)
		{
			perror("realloc fail");
			exit(-1);
		}
		php->a = tmp;
		php->capacity = newCapacity;
	}
	//添加数据
	php->a[php->size] = data;
	php->size++;
	//将新入堆的data进行向上调整
	AdjustUp(php->a, php->size - 1);
}

void HeapPop(Heap* php)
{
	assert(php);
	assert(php->size > 0);

	//将堆顶的数据与堆尾交换
	Swap(&php->a[0], &php->a[php->size - 1]);
	php->size--;
	//将此时堆顶的data向下调整
	AdjustDown(php->a, php->size, 0);
}

void AdjustDown(HPDataType* a, int n, int parent)
{
	assert(a);
	//先默认较大的为左孩子
	int child = parent * 2 + 1;
	while (child < n)
	{
		//如果右孩子比左孩子大,就++
		if (a[child] > a[child + 1] && child + 1 < n)
		{
			child++;
		}
		//建大堆用'>',小堆用'<'
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void AdjustUp(HPDataType* a, int child)
{
	int parent = (child - 1) / 2;

	while (child > 0)
	{
		//建大堆用'>',小堆用'<'
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

HPDataType HeapTop(Heap* php)
{
	assert(php);
	assert(php->size > 0);

	return php->a[0];
}

int HeapSize(Heap* php)
{
	assert(php);

	return php->size;
}

bool HeapEmpty(Heap* php)
{
	assert(php);

	return !php->size;
}

void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *(p1);
	*(p1) = *(p2);
	*(p2) = tmp;
}

『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题,新星计划免费学习专栏·数据结构与算法,排序算法(C语言版),算法,c语言,数据结构,堆文章来源地址https://www.toymoban.com/news/detail-598076.html

到了这里,关于『初阶数据结构 • C语言』⑭ - C语言实现用堆解决 TOP-K 问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 『初阶数据结构 • C语言』④ - 冒泡排序

      本文内容借鉴一本我非常喜欢的书——《数据结构与算法图解》。学习之余,我决定把这本书精彩的部分摘录出来与大家分享。      本章内容 写在前面 1.冒泡排序 2.冒泡排序实战 3.冒泡排序的实现 4.冒泡排序的效率 5.二次问题 6.线性解决 7.总结     大 O记法能客观地衡量

    2024年02月16日
    浏览(46)
  • 『初阶数据结构 • C语言』⑤ - 选择排序

    本文内容借鉴一本我非常喜欢的书——《数据结构与算法图解》。学习之余,我决定把这本书精彩的部分摘录出来与大家分享。     目录 写在前面 1.选择排序 2.选择排序实战 3.选择排序的实现 4.选择排序的效率 5.忽略常数 6.大O的作用 7.总结     大 O 是一种能够比较算法效

    2024年02月14日
    浏览(45)
  • 『初阶数据结构 • C语言』② - 算法为何重要

    本文内容借鉴一本我非常喜欢的书——《数据结构与算法图解》。学习之余,我决定把这本书精彩的部分摘录出来与大家分享。   算法这个词听起来很深奥,其实不然。它只是解决某个问题的一套流程。  准备一碗麦片的流程也可以说是一种算法,它包含以下 4步(对我来说

    2024年02月14日
    浏览(39)
  • 数据结构初阶之顺序表(C语言实现)

    顺序表是数据结构里面很基础的一类,它是线性表的一种,其它线性表还有链表、栈和队列等,今天来和博主一起学习关于顺序表的知识吧。 顺序表,它分为两类: 动态顺序表 和 静态顺序表 ,这两个表的区别就是 前者的空间不固定 ,是 支持扩容 的,后者的 空间是固定

    2024年02月03日
    浏览(45)
  • 『初阶数据结构 • C语言』⑥ - 插入排序&希尔排序

    学习目标 写在前面 1.插入排序 2.插入排序实战  3.插入排序的实现  4.插入排序的效率 5.平均情况 6.希尔排序 7.希尔排序的实现 8.希尔排序的效率 9.总结   之前我们衡量一个算法的效率时,都是着眼于它在最坏情况下需要多少步。原因很简单,连最坏的情况都做足准备了,其

    2024年02月15日
    浏览(43)
  • 初阶数据结构之---顺序表和链表(C语言)

    线性表: 线性表(linear list)是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使用的数据结构。线性表在逻辑上是线性结构,也就是说是连续的一条直线。但在物理上并不一定是连续的。线性表在物理上存储时,通常以 数组 和 链式结构 的形式存储。

    2024年02月22日
    浏览(67)
  • C语言数据结构初阶(10)----二叉树的实现

    · CSDN的uu们,大家好。这里是C语言数据结构的第十讲。 · 目标:前路坎坷,披荆斩棘,扶摇直上。 · 博客主页: @姬如祎 · 收录专栏: 数据结构与算法     目录 1. 函数接口一览 2. 函数接口的实现 2.1 BTNode* BuyNode(BTDataType x) 的实现 2.2 BTNode* CreateTree() 的实现  2.3 void

    2023年04月08日
    浏览(44)
  • 【数据结构初阶】六、线性表中的队列(C语言 -- 链式结构实现队列)

    ========================================================================= 相关代码gitee自取 : C语言学习日记: 加油努力 (gitee.com)  ========================================================================= 接上期 : 【数据结构初阶】五、线性表中的栈(C语言 -- 顺序表实现栈)_高高的胖子的博客-CSDN博客  

    2024年02月08日
    浏览(43)
  • 『初阶数据结构 • C语言』⑬ - 堆排序详解【附完整源码】

     = 目录 0.写在前面 1.什么是堆? 2. 堆排序 2.1 建堆 2.1.1 AdjustUp(向上调整算法) 2.1.2 AdjustDown(向下调整算法) 2.2 两种建堆算法的时间复杂度 2.2.1 AdjustUp建堆的时间复杂度 2.2.2 AdjustDown建堆的时间复杂度 2.3 排序 3.堆排序的时间复杂度 完整源码 你是否对堆排序早有耳闻?身

    2024年02月16日
    浏览(37)
  • 【C语言】【数据结构初阶】 快排变慢排?怎么个事儿?

    我们知道,快排是一种很好的排序算法。但是在 极少数 的一些情况下,“快速排序”好像名不副实了。 当数据量非常大,且递归深度太深,有栈溢出的风险。 这样,我们就得到了一个很可惜的结论:快排不是万金油。 但是,这是指的 递归版本 的快排,我们可以写 非递归

    2024年02月17日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包