数据挖掘-FINAL笔记

这篇具有很好参考价值的文章主要介绍了数据挖掘-FINAL笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

FINAL笔记

2023-06-27 10:25
缺失值填充:data = Imputer(missing_values=‘NaN’, strategy=‘mean’, axis=0) 或fillna

2023-06-27 10:48
散点图:plt.scatter(iris.data[iris.targetlabel,x_index],iris.data[iris.tar
get
label,y_index],label=iris.target_names[label],c=color)

2023-06-27 10:50
3q:a=abs(X-mean) ; a[i]>3*std

2023-06-27 10:57
均值归一;MeanNormalization=(x-mean)/(max-min),缩放到一个级别

2023-06-27 11:00
缩放成单位向量:linalg = np.linalg.norm(x, ord=1) X=x/linalg

2023-06-27 11:04
数值离散:均值离散、等宽、等频

2023-06-27 11:07
离散编码:连续转离散(年龄转分段);特征编码:obj转数值

2023-06-27 11:14
get_dummies和OneHotEncoder都是用于将分类变量转换为二进制向量的方法。其中,get_dummies是pandas库中的函数,而OneHotEncoder是sklearn库中的类 。

两者的区别在于,OneHotEncoder适用于多个集合的情况,如训练集和测试集;而get_dummies只适用于一个数据集情况 。此外,OneHotEncoder还可以处理字符串类型的分类变量,而get_dummies则不能直接处理string类型的分类变量。

2023-06-27 11:22
中 feature_selection 的不同方法或函数分别对鸢尾花数据的特征进行方差选择法,卡方检验法(调用 SelectKBest 函数),互信息法(调用mutual_info_classif 函数),而相关系数法需单独调用 scipy 模块中的 stats.pearsonr()函数直接计算。

2023-06-27 11:25
包装法:x_rfe=RFE(estimator=LogisticRegression(),n_features_to_select=3).fit(X, y)

2023-06-27 11:27
嵌入法:(正则)lasso = Lasso(alpha=1) 和coef、随机森林的feature_importances_

2023-06-27 11:30
线性回归:print(model.coef_) #输出系数 w
print(model.intercept_) #输出截距 b

2023-06-27 11:31
朴素贝叶斯:from sklearn.naive_bayes import BernoulliNB
clf = BernoulliNB()

2023-06-27 11:49
饼图:plt.pie(df[“Sex”].value_counts(),labels=[“male”,“female”],autopct=“%.2f%%”,explode=[0,0.1])
条形图:sns.countplot(dfnew[“Survived”],hue=“Sex”,data=dfnew)

2023-06-27 11:50
记住:
if dfnew.dtypes[x] == np.object:
sns.countplot(dfnew[x])
else:
sns.distplot(dfnew[x])

箱线图:sns.boxplot(dfnew[“Age”])

2023-06-27 11:51
from sklearn.decomposition import PCA

2023-06-27 11:57
分类和聚类算法关注:分类有监督、聚类无监督

2023-06-27 12:00
流程:加载、预处理、相关性、标准化处理、建模、优化、再建模、预测

2023-06-27 13:27
数据拆分后做标准化

2023-06-27 13:28
GradientBoostingRegressor的优化参数:parameters = {‘loss’: [‘ls’,‘lad’,‘huber’,‘quantile’],‘min_samples_leaf’: [1,2,3,4,5],‘alpha’: [0.1,0.3,0.6,0.9]}

2023-06-27 13:32
异常值处理:3q 箱线图 df.boxplot(column=[‘Couple_Year_Income’])
箱线图:sns.boxplot(dfnew[“Age”])

2023-06-27 13:34
异常值删除“:cols_to_drop = np.unique([col[1] for col in cols_pair_to_drop])

2023-06-27 13:35
众数填充的时候,注意有0:df[col_to_fill].fillna(df[col_to_fill].mode()[0])

2023-06-27 13:40
过采样 :from imblearn import over_sampling over_sampling.SMOTE

2023-06-27 13:42
模型持久化:from sklearn.externals import joblib

2023-06-27 13:44
随机森林调参:{‘max_depth’:range(3,30,2)} {‘min_samples_split’:range(10,150,20), ‘min_samples_leaf’:range(10,60,10)} {‘n_estimators’:range(10,101,10)}

2023-06-27 13:45
多分类问题可以用“决策树”和“随机森林”以及“神经网络多层感知分类器”算法来分析处理:
常用“随机森林算法”和“GBDT算法”

针对二分类问题,可使用的算法有逻辑斯谛回归、朴素贝叶斯、支持向量机、树模型等。常用逻辑斯谛回归(广义线性模型)和随机森林(集成树模型)来做对比。考虑到样本极度不均衡,模型评价选用综合指标f1_score。

2023-06-27 13:50
分类算法是将输入的样本分成不同的类别,而回归算法则是预测一个连续的数值。

2023-06-27 13:55
obj转datetime:df[‘Date’] = df[‘Date’].astype(np.datetime64)
字符转数值:df[‘Block’] = pd.factorize(df[‘Block’])[0]
数值类型处理一般都是标准化或者最大最小、均值归一

2023-06-27 13:57
xy.sort_values(by = 0,ascending = False) 排序

2023-06-27 13:59
F1度量(f1_score)对模型进行评估,预测准确率达0.85。一般而言,预测结果大于0.8

2023-06-27 14:00
采用5折交叉验证法(cv=5)进行模型评估 grid = GridSearchCV(rf,params,cv = 5)

2023-06-27 14:01
gbdt提升树 交叉验证 由于调整参数越多模型运行的时间越长,先对学习速率参数调优。如下代码所选取[0.01,0.1,0.3]共3个参数,并采用5折交叉验证法(cv=5)进行模型评估

2023-06-27 14:02
接着采用分类模型算法中的决策树、随机森林与梯度提升树进行分类预测

2023-06-27 14:03
数据集筛选:hdma=hdma[hdma[‘action_taken_name’]!=“Application withdrawn by applicant”]

特征衍生:hdma[‘loan_status’]=[0.0 if x==“Loan originated” else 1.0 for x in hdma[‘action_taken_name’]]

2023-06-27 14:04
相关性分析:corr和X.corrwith(hdma.loan_status).plot.bar(figsize=(20, 10), fontsize=12, grid=True)

2023-06-27 14:05
相关性分析:特征列与目标相关性==corr和X.corrwith(hdma.loan_status).plot.bar(figsize=(20, 10), fontsize=12, grid=True)

相关性分析:列与列的相关性 corr

2023-06-27 14:07
不符合正太分布的可以做分箱
hist(figsize=(15,15))

2023-06-27 14:08
查看obj字段:hdma_meta=pd.DataFrame(hdma.dtypes)
hdma_meta[hdma_meta[0]==‘object’]

2023-06-27 14:10
对obj字段处理:做看缺失值
删除、删除唯一值

2023-06-27 14:11
get_dummies是pandas中One-hot的方法
采用pandas的get_dummies方法对保留的离散特征做编码

2023-06-27 14:14
因为这里并未有距离计算,也可尝试采用Labelencoder而非One-hot编码

2023-06-27 14:15
距离计算:欧式、曼哈顿,如knn算法

2023-06-27 14:26

基础
列表【】 insert upper lower
字典{:} keys values
集合{} if x in xx,remove,
list和tuple集合。import copy

li=[0,1]
while len(li)<15:
li.append(li[-1]+li[-2])

2023-06-27 14:30

new_data=df[df[“date”]==“2020/3/19”]

按用户ID浏量生成数据集data_new2
new_data2=new_data.groupby([“id”,“flow”,“app”]).sum()
plt.bar(data=new_data2[new_data2[“id”]==5],x=“app”,height=“flow”)
plt.pie(data=new_data2[new_data2[“id”]==10][“app”],x=new_data2[new_data2[“id”]==10][“flow”],labels=[“b”,“a”],autopct=‘%1.1f%%’,explode=(0.2,0))

2023-06-27 14:34
条形图:sns.barplot(x,y,data,hue)

2023-06-27 14:41
分箱后,使用sns.countplot(y=“”,data=)

2023-06-27 14:42
散点图常用到的两种方法:1. df.loc[df[xx]==1][yy] 2. df[df[xx]==1,yy]

2023-06-27 14:44
将df转str:df.astype(str),df.apply(encoder.fit-transfor)

2023-06-27 14:47
分类模块:
sklearn.datasets import make_blobs;
x,y=make_blobs(y_pre,n_feature=2)
scatter(x[:,0],x[:,1])

2023-06-27 14:53
属性转化:df[“target”]=pd.DataFrame(1 if i==“>50” else 0 for i in df[“target”].str.strip())

2023-06-27 14:57
删除异常值方法:获取索引,然后drop
df[df[item]<q1-1.5*iqr | ccc].indx
df.drop(index)

2023-06-27 15:01
查看过采样比列:from collections import Counter
Count(x_train_res)

2023-06-27 15:04
填充方法:

  1. df.fillna
  2. imput imort SimpleImputer

2023-06-27 15:05
直方图:plt.hist([xx,xx1],data) df.plot(kind) sns.distplot

2023-06-27 15:08

斐波那契额:考虑输入0 1,2的时候的值,0 是 0 ,1是 0 ,2是【0,1】

2023年6月27日15:29:15
总体思路:文章来源地址https://www.toymoban.com/news/detail-513427.html

  1. 读取数据
  2. 预处理:缺失值处理、时间数据处理、离散型数据处理、连续值转换
  3. 探索分析
  4. 建模:训练、评估、优化
  5. 获取最有模型

到了这里,关于数据挖掘-FINAL笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 时空数据挖掘精选23篇论文解析【AAAI 2023】

    今天和大家分享 时空数据挖掘 方向的资料。 时空数据挖掘是人工智能技术的重要分支,是一种采用人工智能和大数据技术对城市时空数据进行分析与挖掘的方法,旨在挖掘时空数据,理解城市本质,解决城市问题。 目前,时空数据挖掘广泛应用于交通运输、地质灾害监测与

    2024年02月11日
    浏览(40)
  • 山东大学软件学院2022-2023数据仓库数据挖掘期末考试(回忆版)

    前言 1、考试时间:2023/2/14 14:30-16:30 (因疫情推迟到开学考的期末考试) 2、考试科目:数据仓库数据挖掘(老师:PanPeng) 3、考试语言:中文 4、考试题型:简答、计算、画图(最好带个尺子,容易画图)。 5、考后感想:题量 比较大 ,需要对题目比较熟练,题目类型和ppt上差

    2024年02月08日
    浏览(42)
  • 2023年数据挖掘与知识发现国际会议(DMKD 2023) | IOP JPCS独立出版

    会议简介 Brief Introduction 2023年数据挖掘与知识发现国际会议(DMKD 2023) 会议时间:2023年6月24日-26日 召开地点:中国重庆 大会官网:DMKD 2023-2023 International Conference on Data Mining and Knowledge Discovery 由重庆邮电大学、重庆大学主办,重庆大学计算机学院、CoreShare科享学术交流中心协办

    2023年04月14日
    浏览(37)
  • 数据挖掘笔记1

    课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili 数据是最底层的一种表现形式。 数据具有连续性。 从存储上来讲,数据分为逻辑上的和物理层的。 大数据:数据量大、产生速度快、数据种类多、    聚类:把一堆数据分为一组一组的(没有标签)

    2024年01月24日
    浏览(34)
  • 【数据挖掘】学习笔记

    数据预处理 聚集:多个样本或特征进行合并(减少样本规模、转换标度、更稳定) 抽样:抽取一部分样本 降维:在地位空间中表示样本(PCA、SVD) 特征选择:选取重要特征(Lasso) 特征创建:重新构建有用特征(Fouter转换) 离散化 将连续属性转换为离散属性的过程 常用于

    2024年02月10日
    浏览(47)
  • 数据挖掘导论学习笔记1(第1 、2章)

    参考:https://blog.csdn.net/u013232035/article/details/48281659?spm=1001.2014.3001.5506 和《数据挖掘导论》学习笔记(第1-2章)_时机性样本_schdut的博客-CSDN博客  数据挖掘 是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。 数据分析技术的应用: 商务 :借助POS(销售

    2024年02月10日
    浏览(40)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 6 Frequent Itemsets

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT The market-basket model of data is used to describe a common form of many-many relationship between two kinds of objects. On the one hand, we have items , and on the other we have baskets, sometimes called “ transactions .” Each basket consists of a set of items (an items

    2024年02月06日
    浏览(56)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 11 Dimensionality Reduction

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Let M be a square matrix. Let λ be a constant and e a nonzero column vector with the same number of rows as M . Then λ is an eigenvalue of M and e is the corresponding eigenvector of M if M e = λ e Me = λe M e = λ e . Start with any unit vector v of the appropriate lengt

    2024年02月07日
    浏览(49)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 12 Large-Scale Machine Learning

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Algorithms called “machine learning” not only summarize our data; they are perceived as learning a model or classifier from the data, and thus discover something about data that will be seen in the future. The term unsupervised refers to the fact that the input data does

    2024年02月10日
    浏览(54)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2 MapReduce and the New Software Stack

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Computing cluster means large collections of commodity hardware, including conventional processors (“ compute nodes ”) connected by Ethernet cables or inexpensive switches . The software stack begins with a new form of file system, called a “ distributed file system ,”

    2024年02月04日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包