数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测

这篇具有很好参考价值的文章主要介绍了数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


全文链接:https://tecdat.cn/?p=33212

本文通过利用回归模型对天猫商品流行度进行了研究,确定了决定天猫商品流行度的重要因素。并讲述、论证了预测天猫商品流行度是天猫商品交易的至关重要的环节。通过对天猫商品流行度预测技术的发展和探讨,深度剖析了天猫商品流行度预测这个研究课题点击文末“阅读原文”获取完整代码数据)。

相关视频

一、 天猫商品流行度预测发展简介

本文使用的数据集为天猫商品数据集查看文末了解数据免费获取方式

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

它包含562个商品的属性数据。每个商品包括4个属性,具体的4个属性如下:

该数据集有以下一些变量:

列名  描述 
Item_id [ 1 , 8133507]为整数,表示唯一项(备注:两个以上商家同时提供的 A产品记录在多个不同ID的行中。例如,流行的手机如iPhone 6。)。 
Title 一个包含多个关键字的 字符串,由' '  分隔。通过NLP系统从原始标题中提取单词。
Pict_url 在线链接到对应图片的URL  。
Category  字符串' x-y ',其中  ' x '表示其父类,' y '表示其余类。
Brand_id 字符串为' b1 '、' b89366 ',表示商品的品牌。
Seller_id 字符串' s1 ',' s86799 ',表示出售该物品的卖方。

对数据进行概览

summary(data)

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

删除缺失值

datanew=na.omit(data)

主要思路

为了准确的估计流行度,了解天猫商品流行度的一般规律,更好为天猫商品投资方提供参考意见,本文从天猫商品流行度和天猫商品相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了天猫商品流行度变动的影响因素. 具体分析步骤:

1.关系分析

基于以上原理,为大致了解流行度与诸因素之间的关系,先分别绘制流行度与各个因素之间的散点图,并分析它们之间的关系 ,这样可以减少人为因素对流行度的影响,尽量将注意力集中在我们假设选用的自变量上。

2.选择多项式回归模型

2.1变量选取

通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验

根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测

使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果,包括对数回归模型,迭代回归模型。

4.分析得出结论

得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

流行度

查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率:

hist(datanew$category)

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

对每个类别出现的频数的多少进行排序:

order(table(dataneg = T)

datanew$pop=   order(

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。

建立多元线性:imdb

尝试通过最直观的解释建立模型:

进行多元线性模型并进行分析

设置dummy 变量 :从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

筛选变量

显示回归结果:

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言


点击标题查阅往期内容

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

贝叶斯线性回归和多元线性回归构建工资预测模型

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言文章来源地址https://www.toymoban.com/news/detail-599306.html

左右滑动查看更多

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

01

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

02

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

03

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

04

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

模型比较

js
**取对数后的结果**  
summary(lmmod2)显示回归结果

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

回归结果

plot(datanew$category

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

回归结果分析

从输出结果可以看出, 流行度和类别和品牌图片地址 有显著相关关系 ,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。进一步地剩余方差的估计值,f统计量的估计值对应的p值< 2.2e-16说明,回归方程是显著的。可决系数R,修正的可决系数R为 0.1左右说明方程的拟合效果一般,还有部分的流行度被其他变量所解释。

回归结果

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。预测区间要比置信区间稍大,命令与显示结果如下:

head(predict(lm))

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

head(predict(lmmod

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

par(mfrow=c(2,2))  
plot(lmmod2)

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

左上图是拟合值与残差的散点图,从图上可以发现,除去第2个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第2个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。


点击标题查阅往期内容

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

左右滑动查看更多

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

01

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

02

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

03

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

04

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

逐步回归优化

使用逐步回归法建立“最优”的回归方程

stepmod=step

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

summary(stepmod)查看模型参数与结果

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。

总结

从分析结果可以看出, 流行度和类别和品牌图片地址有显著相关关系 ,因此可以认为在天猫购物时,用户会比较关注商品的品牌因素,因为天猫都是正品商铺,购买的用户会比较关注商品的品牌是否为正品等。同时,由于天猫的商品质量有一定的保证,因此用户也会关注该商品的图片,同一个商品可能会因为图片不同而造成不同的流行度。图片好看的商品会有更好的流行度。

数据获取

在公众号后台回复“商品”,可免费获取完整数据。

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

本文中分析的数据和代码分享到会员群,扫描下面二维码即可加群!

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言基于逐步多元回归模型的天猫商品流行度预测》。

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

点击标题查阅往期内容

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

R语言分位数回归Quantile Regression分析租房价格

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

Eviews基于多元回归模型OLS的CPI影响因素分析

R语言逐步多元回归模型分析长鼻鱼密度影响因素

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测,r语言,开发语言

到了这里,关于数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多元回归预测 | Matlab基于鲸鱼算法(WOA)优化混合核极限学习机HKELM回归预测, WOA-HKELM数据回归预测,多变量输入模型

    效果一览 文章概述 多元回归预测 | Matlab基于鲸鱼算法(WOA)优化混合核极限学习机HKELM回归预测, WOA-HKELM数据回归预测,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码

    2024年02月11日
    浏览(27)
  • 基于Python多元线性回归模型

    提示:基于Python的多元线性回归模型 文章目录 前言 一、读取数据 二、建立模型  三、预测新值  四、去截距模型 总结 本文主要是基于多元回归线性模型,然后建立模型和分析,解决多元线性回归模型存在的问题和优化多元线性回归模型,原理就不多讲了,可查看《应用回

    2024年02月07日
    浏览(34)
  • 学习记录2-多元线性回归模型(附上python代码)

    研究货运总量 y (万吨)与工业总产值 x1(亿元)、农业总产值 x2(亿元),居民非商品支出 X3 (亿元)的关系。数据见表3-9。 (1)计算出 y , x1 ,x2, x3 的相关系数矩阵。 (2)求 y 关于 x1 ,x2, x3 的三元线性回归方程。 (3)对所求得的方程做拟合优度检验。 (4)对回归方程做

    2024年02月03日
    浏览(30)
  • 数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林...

    近几年来,各家商业银行陆续推出多种贷款业务,如何识别贷款违约因素已经成为各家商业银行健康有序发展贷款业务的关键 ( 点击文末“阅读原文”获取完整 数据 )。 相关视频 在贷款违约预测的数据 ( 查看文末了解数据免费获取方式 ) 的基础上,探索是否能通过借贷

    2024年02月09日
    浏览(37)
  • GPT与R语言回归模型(lm&glm)、混合效应模型、多元统计分析

    自2022年GPT(Generative Pre-trained Transformer)大语言模型的发布以来,它以其卓越的自然语言处理能力和广泛的应用潜力,在学术界和工业界掀起了一场革命。在短短一年多的时间里,GPT已经在多个领域展现出其独特的价值,特别是在数据统计分析领域。GPT的介入为数据处理、模

    2024年04月10日
    浏览(30)
  • 【代码分享】几个具有创新性的时间序列回归预测模型matlab代码,基于LSTM及改进算法

    【代码分享】几个具有创新性的时间序列回归预测模型 时间序列(Time Series)是指一系列按照时间顺序统计的数据序列,它可以用于描述许多自然和社会现象的演变过程。时间序列分析是指对时间序列的特征进行分析,包括趋势、周期、季节性等,并根据这些特征进行预测或

    2024年04月25日
    浏览(26)
  • 基于多元线性回归的Boston房价数据分析

    Boston房价数据是R语言中一类重要的数据,常被用来做各种方法分析,即它是波士顿不同地区的506个家庭住房信息,其中包括影响房价的14个因素如城镇的人均犯罪率、氮氧化合物浓度、城镇黑人的比例、低教育程度的人口比例等,而且每个因素对房价的影响都是不同显著程度

    2024年01月19日
    浏览(47)
  • 数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据...

    本教程为读者提供了使用频率学派的广义线性模型(GLM)的基本介绍。具体来说,本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用,以及模型评估的方法 ( 点击文末“阅读原文”获取完整 代码数据 )。 本教程使用教育数据例子进行模型的应用。此外,本

    2024年02月16日
    浏览(34)
  • 多元线性回归模型

    目录 一、一元线性回归之旧轿车价格案例 二、多元线性回归之洞庭湖污染物案例实测 三、说一说plot函数的用法 四、感想 直接上例题 一、一元线性回归之旧轿车价格案 以x表示使用年数,y表示相应平均价格。根据表中x、y的数据,建立一个数据模型,分析旧轿车平均价格与

    2024年02月05日
    浏览(32)
  • 数学建模常用模型(五):多元回归模型

    由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以在遇到有些无法用机理分析建立数学模型的时候,通常采取搜集大量数据的办法,基于对数据的统计分析去建立模型,其中用途最为广泛的一类随

    2024年02月13日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包