kaggle新赛：写作质量预测大赛【数据挖掘】

这篇具有很好参考价值的文章主要介绍了kaggle新赛：写作质量预测大赛【数据挖掘】。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

kaggle新赛：写作质量预测大赛【数据挖掘】,深度学习干货,kaggle,比赛,人工智能,深度学习,机器学习,数据挖掘

赛题名称：Linking Writing Processes to Writing Quality

赛题链接：https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality

写作过程中存在复杂的行为动作和认知活动，不同作者可能采用不同的计划修订技术、展示不同的停顿模式或在全过程中策略性地分配时间，这些都可能影响写作质量。过去的研究探索了与停顿、添加删除和修订等行为相关的多种过程特征，但是使用的数据集较小，且只研究了少数特征。

本次竞赛使用键盘日志的数据过程特征来预测总体写作质量，可能识别学习者写作行为与表现之间的关系。鉴于当前写作评估工具主要关注最终产出，这可能帮助学习者关注文本产出过程，增强写作的自主性、元认知意识和自我调节。

本次竞赛的目标是预测写作整体质量。写作方式是否会影响作文结果？参赛者将在一个大规模键盘日志数据集上训练模型，该数据集捕获了书写过程特征。

参赛者的工作将帮助探索学习者的书写行为与书写表现之间的关系，这可能为书写指导、自动书写评估技术和智能辅导系统的发展提供有价值的见解。

我们使用均方根误差来评分提交项，定义为:

kaggle新赛：写作质量预测大赛【数据挖掘】,深度学习干货,kaggle,比赛,人工智能,深度学习,机器学习,数据挖掘

其中是预测值，是n个实例中每个实例i的原始值。

提交文件

对测试集中的每个id,你必须预测对应的score(参见数据页面的描述)。文件应包含一个表头，格式如下:

id,score
0000aaaa,1.0
2222bbbb,2.0
4444cccc,3.0
...

竞赛数据集包含了大约5000份用户输入日志，如键盘和鼠标点击，这些都是在作文过程中捕获的。每篇作文的评分在0到6的范围内。参赛者的目标是根据用户输入日志来预测一篇作文的评分。

文件和字段信息：