一、weka简介
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
如果想自己实现数据挖掘算法的话,可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
二、数据集的导入及编辑
打开weka软件后,点击Explorer,进入主界面,点击openfile,可打开自己的数据集或软件自带的数据集(数据集位于软件安装位置的data文件夹中)。
weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。此外,weka还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的,weka还提供了通过JDBC访问数据库的功能。
- 将文件转为CSV文件
可以通过EXCEL将文件转为CSV格式:打开文件另存为,可见EXCEL支持CSV的存储格式。
也可以通过matlab将数据存储为CSV格式
%% table方式存储
%需要保存的矩阵
A=[1 2 3;4 5 6; 7 8 9];
%行名称
m=['m1';'m2';'m3'];
%列名称
col={'test' 'c_1', 'c_2', 'c_3'};
%生成表格,按列生成
result_table=table(m,A(:,1),A(:,2),A(:,3),'VariableNames',col);
%保存表格
writetable(result_table, 'test.csv');
%% fopen打开CSV文件存储
fid = fopen('test.csv', 'w+', 'n', 'utf8'); % 创建一个csv文件
for i=1:3
fprintf(fid, '%d,%d,%d\n', A(i,1),A(i,2),A(i,3)); % 一行3个数据,用逗号分隔;每行结束后加上\n换行
end
- 将CSV文件转为ARFF文件
weka打开CSV文件后,可以选择希望存储的位置后将文件存储为ARFF格式。
导入数据集后,点击edit对数据集内数据进行编辑(此处以系统自带的鸢尾花数据集为例),编辑后并不会直接改变数据集内容,如果想进行保存,可以点击save对更改后的数据集进行存储。
打开数据集后,可查看对数据集的分类情况,如果是数据型,可以查看数据的最小值、最大值、平均值和标准偏差。
三、建立一个分类器(J48分类器)
以系统自带的glasses数据集为例,点击进入分类器面板,自上而下分别是贝叶斯分类器、函数分类器、线性分类器、元分类器、misc分类器(没查到是什么意思)、基于规则的分类器、决策树分类器。
点击决策树分类器的J48,并start运行,便可以得到分类结果。
可以在classifier output中看到决策树的信息,并可知该决策树共有30个叶节点和59个节点,总准确度为66.8%
可得到混淆矩阵,不在对角线的数值表示错误的分类结果。
此外可点击choose右侧数值对J48的参数进行配置,如点击unpruned,将数值设为True,即可获得未修剪的决策树;点击minNumObj对每个叶节点所含示例的最少数量进行修改。
右键点击Result list中的运行结果,选择Visualize tree,可视化决策树的结果。
四、使用一个过滤器
以系统自带的天气数据集为例,点击Filter,AllFilter和MultiFilter用于合并使用多种过滤器,还有监督和无监督过滤器。
选择无监督的属性过滤器,点击Remove,像之前J48决策树配置参数一样点击并在属性索引处选择3(湿度),apply后运行,并可点击Undo撤销刚才的操作。
选择无监督的实例过滤器,点击RemoveWithValues,并打开配置面板,更改属性索引和NormalIndics,apply后运行,并可点击Undo撤销刚才的操作。
五、可视化数据
以系统自带的鸢尾花数据集为例,点击visualize,得到二维的5×5矩阵图。
点击右上角的五行,左键点击改变X轴属性,右键点击改变Y轴属性。Jitter可通过抖动给X轴、Y轴增加随机性。
可以点击Select Instance选择目标区域并submit后对图像进行调整,保存后生成新的数据集,这也是清理数据中异常数据的一个方法。
继续使用J48分类器,右键点击Result list中的运行结果,选择Visualize classifier errors,可视化决策树分类器的误差,得到实际分类和预测分类的对比图。文章来源:https://www.toymoban.com/news/detail-462282.html
可以使用有监督的属性过滤器,点击增加分类,并使用J48决策树,输出分类结果。
文章来源地址https://www.toymoban.com/news/detail-462282.html
到了这里,关于【数据挖掘软件 weka】第一部分 开始使用weka的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!