【数据挖掘软件 weka】第一部分 开始使用weka

这篇具有很好参考价值的文章主要介绍了【数据挖掘软件 weka】第一部分 开始使用weka。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


一、weka简介

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话,可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。


二、数据集的导入及编辑

打开weka软件后,点击Explorer,进入主界面,点击openfile,可打开自己的数据集或软件自带的数据集(数据集位于软件安装位置的data文件夹中)。
【数据挖掘软件 weka】第一部分 开始使用weka
weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。此外,weka还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的,weka还提供了通过JDBC访问数据库的功能。

  • 将文件转为CSV文件
    可以通过EXCEL将文件转为CSV格式:打开文件另存为,可见EXCEL支持CSV的存储格式。
    【数据挖掘软件 weka】第一部分 开始使用weka
    也可以通过matlab将数据存储为CSV格式
%% table方式存储

%需要保存的矩阵
A=[1 2 3;4 5 6; 7 8 9];
%行名称
m=['m1';'m2';'m3']; 
%列名称
col={'test' 'c_1', 'c_2', 'c_3'}; 
%生成表格,按列生成
result_table=table(m,A(:,1),A(:,2),A(:,3),'VariableNames',col);
%保存表格
writetable(result_table, 'test.csv');
%% fopen打开CSV文件存储

fid = fopen('test.csv', 'w+', 'n', 'utf8');    % 创建一个csv文件
for i=1:3
    fprintf(fid, '%d,%d,%d\n', A(i,1),A(i,2),A(i,3)); % 一行3个数据,用逗号分隔;每行结束后加上\n换行
end
  • 将CSV文件转为ARFF文件
    weka打开CSV文件后,可以选择希望存储的位置后将文件存储为ARFF格式。

导入数据集后,点击edit对数据集内数据进行编辑(此处以系统自带的鸢尾花数据集为例),编辑后并不会直接改变数据集内容,如果想进行保存,可以点击save对更改后的数据集进行存储。
【数据挖掘软件 weka】第一部分 开始使用weka
打开数据集后,可查看对数据集的分类情况,如果是数据型,可以查看数据的最小值、最大值、平均值和标准偏差。
【数据挖掘软件 weka】第一部分 开始使用weka


三、建立一个分类器(J48分类器)

以系统自带的glasses数据集为例,点击进入分类器面板,自上而下分别是贝叶斯分类器、函数分类器、线性分类器、元分类器、misc分类器(没查到是什么意思)、基于规则的分类器、决策树分类器。
【数据挖掘软件 weka】第一部分 开始使用weka
点击决策树分类器的J48,并start运行,便可以得到分类结果。
【数据挖掘软件 weka】第一部分 开始使用weka
可以在classifier output中看到决策树的信息,并可知该决策树共有30个叶节点和59个节点,总准确度为66.8%【数据挖掘软件 weka】第一部分 开始使用weka
可得到混淆矩阵,不在对角线的数值表示错误的分类结果。
【数据挖掘软件 weka】第一部分 开始使用weka
此外可点击choose右侧数值对J48的参数进行配置,如点击unpruned,将数值设为True,即可获得未修剪的决策树;点击minNumObj对每个叶节点所含示例的最少数量进行修改。
【数据挖掘软件 weka】第一部分 开始使用weka
右键点击Result list中的运行结果,选择Visualize tree,可视化决策树的结果。
【数据挖掘软件 weka】第一部分 开始使用weka


四、使用一个过滤器

以系统自带的天气数据集为例,点击Filter,AllFilter和MultiFilter用于合并使用多种过滤器,还有监督和无监督过滤器。
选择无监督的属性过滤器,点击Remove,像之前J48决策树配置参数一样点击并在属性索引处选择3(湿度),apply后运行,并可点击Undo撤销刚才的操作。
选择无监督的实例过滤器,点击RemoveWithValues,并打开配置面板,更改属性索引和NormalIndics,apply后运行,并可点击Undo撤销刚才的操作。
【数据挖掘软件 weka】第一部分 开始使用weka

五、可视化数据

以系统自带的鸢尾花数据集为例,点击visualize,得到二维的5×5矩阵图。
点击右上角的五行,左键点击改变X轴属性,右键点击改变Y轴属性。Jitter可通过抖动给X轴、Y轴增加随机性。
【数据挖掘软件 weka】第一部分 开始使用weka
可以点击Select Instance选择目标区域并submit后对图像进行调整,保存后生成新的数据集,这也是清理数据中异常数据的一个方法。

继续使用J48分类器,右键点击Result list中的运行结果,选择Visualize classifier errors,可视化决策树分类器的误差,得到实际分类和预测分类的对比图。

可以使用有监督的属性过滤器,点击增加分类,并使用J48决策树,输出分类结果。
【数据挖掘软件 weka】第一部分 开始使用weka文章来源地址https://www.toymoban.com/news/detail-462282.html


到了这里,关于【数据挖掘软件 weka】第一部分 开始使用weka的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《数据挖掘基础》实验:Weka平台实现分类算法

    进一步理解分类算法(决策树、贝叶斯),利用weka实现数据集的分类处理,学会调整模型参数,以图或树的形式给出挖掘结果,并解释规则的含义。 随机选取数据集(UCI或data文件夹),完成以下内容:(用三种方法:KNN、C4.5算法、贝叶斯算法) 文件导入与编辑 参数设置说

    2024年02月05日
    浏览(58)
  • 〖数据挖掘〗weka3.8.6的安装与使用

    目录 背景 一、安装 二、使用explorer 1. 介绍 2.打开自带的数据集(Preprocess) 1.打开步骤 2.查看属性和数据编辑 3.classify 4.Cluster 5.Associate 6.Select attributes 7.Visualize 待补充 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费 的,非商业化软件,与之对

    2024年02月06日
    浏览(32)
  • 【数据挖掘大作业】基于决策树的评教指标筛选(weka+数据+报告+操作步骤)

    数据挖掘大作业 下载链接:【数据挖掘大作业】基于决策树的评教指标筛选(weka使用手册+数据+实验报告) 一、考核内容 现有某高校评教数据(pjsj.xls),共计842门课程,属性包括:课程名称、评价人数、总平均分以及10个评价指标Index1-Index10。指标内容详见表1。 表 1 学生评教

    2024年02月09日
    浏览(43)
  • 山东大学数据结构课设第一部分实验二——外排序

    题目要求: 应用输者树结构模拟实现外排序。 基本要求: 1. 设计并实现 最小输者树 结构 ADT , ADT 中应包括初始化、返回赢者,重构等基本操作。 2. 应用最小输者树设计实现外排序,外部排序中的生成最初归并串以及 K 路归并都应用最小输者树结构实现; 3. 验证你所实现

    2024年04月26日
    浏览(29)
  • 【数据结构】之十分好用的“链表”赶紧学起来!(第一部分单向链表)

    💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃 个人主页 :阿然成长日记 👈点击可跳转 📆 个人专栏: 🔹数据结构与算法🔹C语言进阶 🚩 不能则学,不知则问,耻于问人,决无长进 🍭 🍯 🍎 🍏 🍊 🍋 🍒 🍇 🍉 🍓 🍑 🍈 🍌 🍐 🍍 前言 🎸小伙伴们,

    2024年02月14日
    浏览(46)
  • 模拟第一部分5

    1、如果想要在外部包中使用全局变量,则全局变量必须( ) 正确答案:A A、首字母必须大写 B、首字母必须小写 C、必须加上const D、必须加上var 答案解析:在函数体外声明的变量称之为全局变量。全局变量声明必须以 var 开头,如果想要在外部包中使用

    2024年02月08日
    浏览(45)
  • 第一部分:核心容器

    Spring就是一个轻量级的控制反转(IOC)和面向切面编程(AOP)的框架!         什么是IoC、IoC容器、bean、DI ? IoC:对象创建控制权由程序转移到IoC容器的控制反转思想。 IoC容器:创建管理对象的容器。 bean:IoC容器中被创建管理的对象。 DI:IoC容器中建立bean之间依赖关

    2024年02月13日
    浏览(44)
  • 6.播放音频(第一部分)

    这一章将对播放音频的具体内容做讲解。我的想法是按照tinyalsa中的例子作为讲解的范本,因为tinyalsa足够简单,很多时候都忽略了它的细节。趁着这个机会再整理一下tinyalsa的内容。我使用的tinyalsa从https://github.com/tinyalsa/tinyalsa下载,从examples/writei.c开始。 其中函数read_file从

    2023年04月08日
    浏览(37)
  • MySQL学习-第一部分

    MySQL数据库 MySQL是一个**关系型数据库管理系统****,**由瑞典[MySQL AB](https://baike.baidu.com/item/MySQL AB/2620844) 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用

    2024年02月15日
    浏览(50)
  • 第一部分:Spark基础篇

    第一部分:Spark基础篇_奔跑者-辉的博客-CSDN博客 第二部分:Spark进阶篇_奔跑者-辉的博客-CSDN博客 第三部分:Spark调优篇_奔跑者-辉的博客-CSDN博客 第一部分:Flink基础篇_奔跑者-辉的博客-CSDN博客 (*建议收藏*) 实时数仓之 Kappa 架构与 Lambda 架构_奔跑者-辉的博客-CSDN博客(*建议收

    2024年02月05日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包