对抖音流量获取的数据分析

这篇具有很好参考价值的文章主要介绍了对抖音流量获取的数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


一、分析目的

抖音是一个面向全年龄的音乐短视频社区平台。目前用户众多,有不少人都成为了网红,聚集了大量粉丝。在此希望能看出一些他们之间的共性,帮助后来人少走一些弯路。并结合实际观察抖音运营存的现状,提出一些建议。
采集到的抖音网红的相关建议,如下,我们要通过数据分析验证这些建议的真实性

  • 抖音98.52%的流量都会流向算法推荐视频,获得算法推荐是获得更多播放的关键所在。
  • 最重要的始终是题材的选择,初始流量池大更容易获得算法青睐。
  • 除去题材外,投稿的最佳时间日常是在0-5点,有平台活动一定要参与。
  • 视频时长最好在7-10s,其次是0-6s及23s以内,最长也不建议超过40s。
  • 背景音乐最好选择当下最流行的歌曲。

二、数据来源

本文的数据集为抖音四十天内的数据交互记录,一行记录就是一个播放数据,总共近600w条数据。
对抖音流量获取的数据分析

字段说明

数据字段 数据含义
uid 用户id
user_city 用户所在城市
item_id 作品id
author_id 作者id
item_city 作品城市
channel 观看到该作品的来源
finish 是否浏览完作品
like 是否对作品点赞
music_id 音乐id
device 设备id
time 作品发布时间
duration_time 作品时长

三、数据处理

1.引入库

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
import time
import seaborn as sns
%matplotlib inline
#更改设计风格
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']#(显示中文)
plt.rcParams['axes.unicode_minus'] = False#(显示负数)

2.数据清洗&预处理

加载数据

data = pd.read_csv('./douyin.txt')
data.head()

对抖音流量获取的数据分析

检测是否存在空值

data.isnull().sum(axis=0)
uid              0
user_city        0
item_id          0
author_id        0
item_city        0
channel          0
finish           0
like             0
music_id         0
device           0
time             0
duration_time    0
dtype: int64

检测是否存在重复值

data.duplicated().sum()
data.drop_duplicates(inplace=True)
#重新设置索引
data.reset_index(drop=True,inplace=True)

数据是进行过脱敏的数据,无法观察原有情况,不过可以推断其中的-1是缺失值直接删除即可。

data.replace(to_replace=-1,value=np.nan,inplace=True)
data.isnull().sum()
data.dropna(axis=0,inplace=True)
data.reset_index(drop=True,inplace=True)

原始的数据列中存在device为设备ID,这个特征于分析无意义,可以将其删除

data.drop(labels='device',axis=1,inplace=True)
data.info()

对抖音流量获取的数据分析
time列是时间戳,此处修改成正常时间

time.strftime(“%Y-%m-%d %H:%M:%S”, time.localtime(1511572885))

real_time = []
for i in data['time']:
    timeArray = time.localtime(i)
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
    real_time.append(otherStyleTime)    
data['real_time'] = real_time
data.drop(labels='time',inplace=True,axis=1)
data['real_time'] = pd.to_datetime(data['real_time'])

时间列中既有日期也有具体的时分秒,网红建议发布视频的时间为0-5点,则需要将小时单独从日期中抽取出来作为新的一列,将年-月-日的时间也抽取出来作为新的一列。

data['H'] = data.real_time.dt.hour
data['date']=data.real_time.dt.date
#将date转换成字符串类型
data['date'] = data.date.astype('str')

四、数据分析

抖音网红视频数据分析

抖音播放量来源分布

channel = data.groupby(by='channel').count()['uid']
channel

对抖音流量获取的数据分析
结论1: 虽然没有明确说明,但作为算法驱动的短视频平台,显然可知“0”是算法推荐的视频。那么在抖音获得播放量的关键就是获得算法推荐进入更大的流量池。

视频时长与点赞完播率之间的关系

作品时长与播放量的关系
item_duration = data.groupby(by='duration_time').count()['uid']
plt.plot(item_duration)
plt.xlim(2,40)
plt.xlabel('作品时长')
plt.ylabel('播放量')
plt.title("作品时长与播放量的关系")

对抖音流量获取的数据分析

作品时长与作品数量的关系
duration_nums = data.groupby('duration_time')['item_id'].nunique()
plt.plot(duration_nums)
plt.xlim(2,40)
plt.xlabel('作品时长')
plt.ylabel('作品数量')
plt.title("作品时长与作品数量的关系")

对抖音流量获取的数据分析

作品时长与完播率的关系

完播率和点赞率可以用不同播放时长的作品对应的完播和点赞的均值表示

finish_p = data.groupby('duration_time')['finish'].mean()
plt.plot(finish_p)
plt.xlim(2,100)
plt.xlabel('作品时长')
plt.ylabel('完播率')
plt.title("作品时长与完播率的关系")

对抖音流量获取的数据分析

作品时长与点赞率的关系
like_p = data.groupby('duration_time')['like'].mean()
plt.plot(like_p)
plt.xlim(2,40)
plt.xlabel('作品时长')
plt.ylabel('点赞率')
plt.title("作品时长与点赞率的关系")

对抖音流量获取的数据分析
观察结果:
作品绝大多数分布在7-10s中,总体来说在0s-22s之间都有一定数量的投稿,22s以上的就很少了。
播放量的分布基本与作品数量相同。
完播率在2s-40s内总体在40%以上,40s以后开始剧烈波动,因此作品时长应该设置在40s之内比较稳妥
点赞率在2s-10s内基本维持在1%之内,在12s-20s之间会在0.7%-1.1%之间波动,在20s以后数据变化的波动完全没有规律。

  • 结论2:视频时长最好在7-10s,其次是0-6s及23s以内,最长也不建议超过40s
作品发布时间(小时)与点赞完播率之间的关系
H_f_l = data.groupby('H')[['finish','like']].mean()
H_f_l.plot()
plt.title("作品发布时间与点赞完播率之间的关系")

对抖音流量获取的数据分析

发布作品时间和播放量之间的关系
time_play_s = data.groupby('H')['uid'].count()
plt.plot(time_play_s)

对抖音流量获取的数据分析

24小时内用户投稿(发布作品)数量的变化

关注大多数用户都是什么时间投稿(考虑去重)

public_item_s = data.groupby('H')['item_id'].nunique()
plt.plot(public_item_s)

对抖音流量获取的数据分析
放在一起观察

  • 结论3:
    不同时间段内发布的作品点赞率和完播率不会有太大变化,整体播放量和投稿数也基本相同这说明播放量和投稿时间关系亦不大,不过还是可以看出0-5点的播放量会略高。如果投稿最佳时间是在0-5点,但并无特殊优势。

背景音乐播放量之间的关系

music_play_s = data.groupby(by='music_id')['uid'].count().sort_values(ascending=False)
top_10_music = music_play_s.iloc[:10]
top_10_music

对抖音流量获取的数据分析

plt.plot(top_10_music.index.astype('str'),top_10_music.values)

对抖音流量获取的数据分析

  • 结论4: 对于视频配乐更推荐当时最火的歌曲,会比其他歌曲更容易获得高播放量。

总结

为了使在抖音上的视频更高效地获得流量,获得播放量的关键就是获得算法推荐进入更大的流量池。视频时长最好在7-10s,其次是0-6s及23s以内,最长也不建议超过40s。不同时间段内发布的作品点赞率和完播率不会有太大变化,整体播放量和投稿数也基本相同这说明播放量和投稿时间关系亦不大,不过还是可以看出0-5点的播放量会略高。如果投稿最佳时间是在0-5点,但并无特殊优势。 对于视频配乐更推荐当时最火的歌曲,会比其他歌曲更容易获得高播放量。文章来源地址https://www.toymoban.com/news/detail-473670.html

到了这里,关于对抖音流量获取的数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包