kaggle新赛：谷歌AI模型运行时间预测赛题解析【数据挖掘】

这篇具有很好参考价值的文章主要介绍了kaggle新赛：谷歌AI模型运行时间预测赛题解析【数据挖掘】。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

kaggle新赛：谷歌AI模型运行时间预测赛题解析【数据挖掘】,比赛,kaggle,深度学习干货,人工智能,数据挖掘,kaggle

赛题名称：Google - Fast or Slow? Predict AI Model Runtime

赛题链接：https://www.kaggle.com/competitions/predict-ai-model-runtime

Alice 是一名 AI 模型开发人员，但她的团队开发的一些模型运行速度非常慢。她最近发现了编译器的配置，这些配置改变了编译器编译和优化模型的方式，从而使模型运行得更快（或更慢）。参赛者的任务是帮助 Alice 找到每个模型的最佳配置。

数据挖掘

根据训练数据集中提供给参赛者的运行时数据训练机器学习模型，并进一步预测测试数据集中图形和配置的运行时。

我们的数据集称为TpuGraphs,这是在XLA HLO图上运行在张量处理单元(TPUs) v3上的性能预测数据集。

总共有5个数据集集合:layout:xla:random、layout:xla:default、layout:nlp:random、layout:nlp:default和tile:xla。

最终得分将是所有数据集的平均值。要下载整个数据集并查看更多信息，参赛者可以导航到数据选项卡。

我们在https://github.com/google-research-datasets/tpu_graphs上提供了基准模型和训练设置。请参阅我们的数据集论文（https://arxiv.org/abs/2308.13490），了解基准模型的详细信息。

根据实际需求，我们使用两种评估指标，并对其取平均。

具体来说，对于数据集“tile:xla”，我们使用top-K预测产生的“(1-slowdown)”来反映模型预测的top-K配置相对于实际最快配置的速度降低情况,计算如下:

kaggle新赛：谷歌AI模型运行时间预测赛题解析【数据挖掘】,比赛,kaggle,深度学习干货,人工智能,数据挖掘,kaggle

其中 K 是top-K预测，A 是数据集中给定图的所有配置，y 是测量的执行时间。

对于 layout:* 数据集，我们使用肯德尔秩相关系数(一种排名评估指标：模型预测的配置排序与运行时间排序的实际对应程度)。

参赛者的提交文件必须是一个带有标题ID、TopConfigs的csv文件。每个npz/**/test/*.npz文件（请参阅数据）在csv文件中必须有一行。

ID是{collection}:{test_filename_without_extension}，其中collection是tile:xla、layout:xla:random、layout:xla:default、layout:nlp:random和layout:nlp:default之一。
TopConfigs应该根据参赛者的模型预测，按照从最快（运行时间最短）到最慢（运行时间最长）的顺序，用“;”分隔列出配置的索引。
- 对于集合tile:xla，只有前5个条目将被考虑，其余的将被忽略。
- 对于layout:*集合，所有条目将被考虑
有关样本提交文件，请从数据选项卡下载sample_submission.csv。