博客质量分计算(三)——发布 version 4

这篇具有很好参考价值的文章主要介绍了博客质量分计算(三)——发布 version 4。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

动机

近一段时间集中发现了一些博客质量分的异常案例。主要有这么几个类型:

  • 部分指标明显有问题,但是质量分得分仍然很高
  • 有些文章人工阅读可以发现有明显的质量区别,但是实际得分却很相近,甚至相同。

分析发现,主要是在逐次的迭代过程中,过去的归一化策略已经不太适用。这个问题,简单的说,要从质量分的结构说起。

质量分最初设计为一个提供给下游算法的中间服务,它生成的是一个(0, 1)之间的浮点数。这个浮点数是由一组指标分数加权求和之后,先做归一化,然后用一组乘法因子求积(通过这种方式将一些明显的坏样本压低分数)。

最后,为了提供给终端业务使用,做了一层离散化处理。将这个浮点数处理为0到100分的整数。

对问题数据的采样分析发现,第一个现象主要是因为,最初设计质量分算法时,各权重因子系数很规范的设计为总和等于1,这样归一化可以做的非常简单,实际上我们将其放大后,再利用AI工程里常用的sigmoid函数做平滑,使其尽可能向 0 分和满分两端靠拢——这是为了实现神经网络的点火行为,毕竟这个算法最初是希望成为某个神经网络的一部分。

但是随着业务发展,计算指标经历了几次调整,权重系数本身已经不再是一个总和为1的集合。这使得过去的归一化算法失效。这就导致了第一类问题的出现:虽然在某些指标上拿了很低的分数,但是因为分数总和超过了设计范围,它最终得分仍然很高。同时,一些文章和文章之间,在做归一化之前的中间分数差异较大,但是经过归一化处理之后,集中在很近的区间。

博客质量分计算(三)——发布 version 4
使用sigmoid函数归一化的例子
​​​​

 如上面这个例子,使用sigmoid归一化后,9和10只有小数点第四位之后才能看出差异,对于更大的数字,例如到三四十以上,就几乎要超出浮点数的有效范围了。因此,虽然这个算法可以接受整个实数域,但是离原点过远的值,就失去了意义。同时,在值域两端,即高分区和低分区,数据会过于密集,再经过离散后,就变成了同样的分数。

同样,由于在计分过程中有多次归一化操作,会造成一些重要指标没有体现出足够的权重,使得一些阅读体验还算正常的文章没有得到足够高的分数。因此我们对博客质量分做了一些技术化调整。

第四版

这个调整过程重点是使归一化后的分数曲线不那么陡峭。我们在归一化算法中,引入了加权求和的指标和本身,使其先约束在一个有限范围内,使得未来加入的新因子,也可以自动的产生比较理想的分布。使其更为健壮。

其次,我们经过试验,挑选了更为更平滑的归一化函数,使得最终得分不过度堆积在两端,这本身也体现了质量分算法的应用目标调整。

当然,这也会表现出一个新问题,按照过去的标准,高分博客变少了,我们会在统计新算法的分数分布后,设定一个适合新算法的分段标准,对“优秀”的标准做一些下调。

目前我们还在统计历史博客在新算法上的分布,我猜测新算法也会造成“质量较差”的文章更少,但是对相关标准的调整,我的态度是尽量保守一些,目前来说,此类文章的甄别更依赖惩罚因子。文章来源地址https://www.toymoban.com/news/detail-499267.html

  • 博客质量分计算(一)_ccat的博客-CSDN博客
  • 博客质量分计算(二)_ccat的博客-CSDN博客
  • 博客质量分计算(三)_ccat的博客-CSDN博客

到了这里,关于博客质量分计算(三)——发布 version 4的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • element ui datePick时间日期一段时间,限制选择日期的范围

     时间戳,一天 想限制只能选日期间隔为一年,联合选择器样式不好改,使用俩单独的 有两个办法限制 1.一个在外层使用form通过表单验证控制,出现错误提示(由于是两个单独的组件,触发验证的方式又为单个失去焦点,所以俩组件无法实时更新) 2.用datepick自带的属性di

    2024年02月05日
    浏览(33)
  • 如何通过ELK统计一段时间内接口被调用次数及平均响应时间

    ELK,全名是: Elasticsearch,有了它,我们可以很方便地进行日志查询。 那么,假如想要统计某个服务的接口在某段时间内的被调用次数平均响应时间,类似于下面的效果: 那应该怎么做呢? 步骤如下, 1、打开ELK地址,找到Dev Tools 2、点击Dev Tools,输入执行内容 说明: 注意

    2024年02月12日
    浏览(38)
  • 解决Win11休眠一段时间后自动关机的问题

    S0 工作状态:系统完全可用。 S0 睡眠(现代待机):低功耗空闲,网络可用 。 S1 睡眠:CPU停止工作。 S2 睡眠:CPU关闭。 S3 睡眠:仅保留内存工作。 (S1-S3) + S4 混合睡眠:睡眠和休眠状态的组合。 S4 休眠:硬件全部关闭,内存映像转为休眠文件写入到硬盘。 S5 软关机:硬件

    2024年02月09日
    浏览(61)
  • 解决虚拟机VMware一段时间不动,就卡死的问题

    虚拟机总是一段时间不移动鼠标,就会无响应,每次都要重启两次才能继续维持一段时间,我一开始以为是内存和处理器或者硬盘太小的问题,但是我调大了之后还是一样,下面是我分配的虚拟机性能  针对虚拟机卡死,列出以下改善性能的方式,大家可以尝试一下: 因为虚

    2024年02月06日
    浏览(43)
  • 删除、移动、复制文件时总是要卡在99%一段时间解决方法

    Win10文件夹重命名、移动、删除等操作卡顿3-5秒。 原因分析: 查看发现,卡顿期间资源管理器无响应,并且其高度占用CPU资源,但是对于非文件夹文件操作没有问题。 解决方案: 1、双击“此电脑”,选择“查看”,再选择“选项”; 2、依次选择“常规”–“清除”–“还原

    2024年02月10日
    浏览(30)
  • 线上JAVA应用平稳运行一段时间后出现JVM崩溃问题

    系统是一个定时任务系统,需要定时执行业务代码,业务代码主要是访问MYSQL数据库和缓存进行操作,该开始启动,系统日志一切正常,但是运行一段时间到凌晨后,系统就自动崩溃了,java进程没有了,只留下了程序崩溃日志如下: 当JVM 的初始化完成后,类在调用执行过程

    2024年02月05日
    浏览(28)
  • 【博客历程】比起方法和技巧,我更想谈质量与坚持

    还没准备好,等我怎样怎样时再··· 还在犹豫什么时候开始,如何开始时 我想告诉你的是,犹豫就会败北,从现在开始吧 Just do it! Just do it! Just do it! 我的第一篇博客 翻看自己写的第一篇博客,是2020年9月21日的排序算法总结☑▁▂▃▅▂▃▁▂▃▇▆▃▂▁ 在这之前,虽然

    2024年02月06日
    浏览(8)
  • 编写sql统计一段时间内,每天、每月、每年的统计数据(PostgreSQL)

    前言 在做数据统计页面时,总会遇到统计某段时间内,每天、每月、每年的数据视图(柱状图、折线图等)。这些统计数据一眼看过去也简单呀,不就是按照时间周期(天、月、年)对统计数据进行分个组就完了嘛?但是会有一个问题,简单的写个sql对周期分组,获取到的统

    2024年02月12日
    浏览(26)
  • STM32使用HAL库,串口收发一段时间后出错问题及解决

    当STM32使用HAL库进行开发时,偶尔会遇到串口收发数据量大时,会出现问题。比如同时串口同时收发,一段时间后就只能发送,接收不工作。或是只接收,但数据量大时也不工作。下面对这些问题和其解决办法进行整理。 当数据量过大且传输频率快时,串口可能会因为溢出,

    2024年02月16日
    浏览(28)
  • MuMu模拟器运行一段时间后Device.Present耗时突然上升

    1)MuMu模拟器运行一段时间后Device.Present耗时突然上升 2)​如何在运行过程中获得温度信息 3)Input System鼠标更换主按键的Bug 4)如何禁止Unity向https://config.uca.cloud.unity3d.com发送设备信息 这是第347篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等

    2024年02月13日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包