【数据挖掘软件 weka】第一部分开始使用weka-Toy模板网

这篇具有很好参考价值的文章主要介绍了【数据挖掘软件 weka】第一部分开始使用weka。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、weka简介

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话，可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

二、数据集的导入及编辑

打开weka软件后，点击Explorer，进入主界面，点击openfile，可打开自己的数据集或软件自带的数据集（数据集位于软件安装位置的data文件夹中）。
【数据挖掘软件 weka】第一部分开始使用weka
weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。此外，weka还提供了对CSV文件的支持，而这种格式是被很多其他软件所支持的，weka还提供了通过JDBC访问数据库的功能。

将文件转为CSV文件
可以通过EXCEL将文件转为CSV格式：打开文件另存为，可见EXCEL支持CSV的存储格式。

也可以通过matlab将数据存储为CSV格式

%% table方式存储

%需要保存的矩阵
A=[1 2 3;4 5 6; 7 8 9];
%行名称
m=['m1';'m2';'m3']; 
%列名称
col={'test' 'c_1', 'c_2', 'c_3'}; 
%生成表格，按列生成
result_table=table(m,A(:,1),A(:,2),A(:,3),'VariableNames',col);
%保存表格
writetable(result_table, 'test.csv');

%% fopen打开CSV文件存储

fid = fopen('test.csv', 'w+', 'n', 'utf8');    % 创建一个csv文件
for i=1:3
    fprintf(fid, '%d,%d,%d\n', A(i,1),A(i,2),A(i,3)); % 一行3个数据，用逗号分隔；每行结束后加上\n换行
end

将CSV文件转为ARFF文件
weka打开CSV文件后，可以选择希望存储的位置后将文件存储为ARFF格式。

导入数据集后，点击edit对数据集内数据进行编辑（此处以系统自带的鸢尾花数据集为例），编辑后并不会直接改变数据集内容，如果想进行保存，可以点击save对更改后的数据集进行存储。
【数据挖掘软件 weka】第一部分开始使用weka
打开数据集后，可查看对数据集的分类情况，如果是数据型，可以查看数据的最小值、最大值、平均值和标准偏差。

三、建立一个分类器（J48分类器）

以系统自带的glasses数据集为例，点击进入分类器面板，自上而下分别是贝叶斯分类器、函数分类器、线性分类器、元分类器、misc分类器（没查到是什么意思）、基于规则的分类器、决策树分类器。
【数据挖掘软件 weka】第一部分开始使用weka
点击决策树分类器的J48，并start运行，便可以得到分类结果。

可以在classifier output中看到决策树的信息，并可知该决策树共有30个叶节点和59个节点，总准确度为66.8%
可得到混淆矩阵，不在对角线的数值表示错误的分类结果。
【数据挖掘软件 weka】第一部分开始使用weka
此外可点击choose右侧数值对J48的参数进行配置，如点击unpruned，将数值设为True，即可获得未修剪的决策树；点击minNumObj对每个叶节点所含示例的最少数量进行修改。

右键点击Result list中的运行结果，选择Visualize tree，可视化决策树的结果。
【数据挖掘软件 weka】第一部分开始使用weka

四、使用一个过滤器

以系统自带的天气数据集为例，点击Filter，AllFilter和MultiFilter用于合并使用多种过滤器，还有监督和无监督过滤器。
选择无监督的属性过滤器，点击Remove，像之前J48决策树配置参数一样点击并在属性索引处选择3（湿度），apply后运行，并可点击Undo撤销刚才的操作。
选择无监督的实例过滤器，点击RemoveWithValues，并打开配置面板，更改属性索引和NormalIndics，apply后运行，并可点击Undo撤销刚才的操作。
【数据挖掘软件 weka】第一部分开始使用weka

五、可视化数据

以系统自带的鸢尾花数据集为例，点击visualize，得到二维的5×5矩阵图。
点击右上角的五行，左键点击改变X轴属性，右键点击改变Y轴属性。Jitter可通过抖动给X轴、Y轴增加随机性。
【数据挖掘软件 weka】第一部分开始使用weka
可以点击Select Instance选择目标区域并submit后对图像进行调整，保存后生成新的数据集，这也是清理数据中异常数据的一个方法。