〖数据挖掘〗weka3.8.6的安装与使用-Toy模板网

这篇具有很好参考价值的文章主要介绍了〖数据挖掘〗weka3.8.6的安装与使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

背景

一、安装

二、使用explorer

1. 介绍

2.打开自带的数据集(Preprocess)

1.打开步骤

2.查看属性和数据编辑

3.classify

4.Cluster

5.Associate

6.Select attributes

7.Visualize

待补充

背景

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费
的，非商业化软件，与之对应的是SPSS公司商业数据挖掘产品--Clementine ；weka是基于JAVA环境下开源的
机器学习（machine learning）以及数据挖掘（data mining）软件。Weka的主要开发者来自新西兰的怀卡托大学（The University of Waikato）。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

一、安装

安装简单，一路next。

1.打开weka3.8.6的安装包

〖数据挖掘〗weka3.8.6的安装与使用

2.点击 next

〖数据挖掘〗weka3.8.6的安装与使用

3.点击I Agree

〖数据挖掘〗weka3.8.6的安装与使用

4.点击next

〖数据挖掘〗weka3.8.6的安装与使用

5.选择安装路径如：D:\weka-3-8-6

〖数据挖掘〗weka3.8.6的安装与使用

6.点击install

〖数据挖掘〗weka3.8.6的安装与使用

等待后，finish。下面是安装成功后打开的初始界面〖数据挖掘〗weka3.8.6的安装与使用

二、使用explorer

〖数据挖掘〗weka3.8.6的安装与使用

1. 介绍

〖数据挖掘〗weka3.8.6的安装与使用

Preprocess：预处理
Classify：分类
Cluster：聚类
Associate：关联
Select attributes：选择属性
Visualize：可视化

〖数据挖掘〗weka3.8.6的安装与使用

open file：从文件中打开一组实例
open URL：从URL中打开一组实例
open DB：从数据库中打开一组实例
generate：生成人工数据
undo：撤销对数据集最后更改
edit：在查看器中打开当前数据集进行编辑
save：将工作关系保存到文件中

〖数据挖掘〗weka3.8.6的安装与使用

属性

ALL：全选
None：全不选
invert：取反
pattern：输入perl正则表达式

〖数据挖掘〗weka3.8.6的安装与使用

该位置展示具体属性都有什么

remove：选择属性后，点击删除，可用undo撤回。

〖数据挖掘〗weka3.8.6的安装与使用

当前的关系

关系:投票属性:17
实例:435 权重和:435

2.打开自带的数据集(Preprocess)

1.打开步骤

选择openfile

〖数据挖掘〗weka3.8.6的安装与使用

选择data文件

〖数据挖掘〗weka3.8.6的安装与使用

这里我们可以看到一些weka自带的数据集

〖数据挖掘〗weka3.8.6的安装与使用

选择其中一个数据集打开，我选择的是vote.arff

〖数据挖掘〗weka3.8.6的安装与使用

2.查看属性和数据编辑

2.1查看属性

选择属性，可以下拉查看并选择

〖数据挖掘〗weka3.8.6的安装与使用

Visualize All：查看所有属性直方图

〖数据挖掘〗weka3.8.6的安装与使用

2.2数据编辑

〖数据挖掘〗weka3.8.6的安装与使用

点击Edit，弹出viewer，在这里面可以查看并编辑数据。

〖数据挖掘〗weka3.8.6的安装与使用

3.classify

分类是指根据事物的某些共同特征，将它们分成若干组或类别，以达到简化、归纳和管理的目的。在机器学习领域中，分类是指根据已有数据集中的特征和标签信息，训练出一个算法模型，用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型，其应用广泛，如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。

〖数据挖掘〗weka3.8.6的安装与使用

测试选项

Use training set：使用训练集
Supplied test set：提供测试集
Cross-validation：交叉验证
Percentage split：按比例分配
start：点击即用

4.Cluster

聚类是指根据一组数据的相似性，将它们分为若干个组或簇，使得同一个簇内的元素彼此相似，不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题，与分类问题不同，聚类问题中没有预先定义好的标签信息，需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域，是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。

〖数据挖掘〗weka3.8.6的安装与使用