我分析了美国所有YouTube热门视频整整一年

2020-07-08 05:08:20

大约1.5年前,我对美国YouTube热门视频进行了分析。这项分析是在2017年和2018年的一些月份的趋势视频上进行的。分析在Kaggle和Reddit上引起了很大的兴趣;我也收到了一些赞扬所做工作的电子邮件。那是一年半以前的事了。

今天,我提出该分析的改进和扩展版本。这一分析更为先进,并包含了新的有趣元素。在这份分析中,分析了2019年全年的所有热门视频(超过7万个视频)。

标题、描述、缩略图、标签、视图、喜欢/不喜欢和评论都被分析,以产生本文所示的结果。继续阅读以了解有关分析和数据的更多信息,或者您可以直接跳到结果部分。

如你所知,YouTube是当今世界上最受欢迎和使用最多的视频平台。YouTube有一个热门视频列表。我将引用YouTube上的热门视频描述:

流行趋势帮助观众看到YouTube上和世界上正在发生的事情。Trending的目标是让广大观众感兴趣的视频浮出水面。有些趋势是可以预测的,比如流行艺术家的新歌或新的电影预告片。另一些则令人惊讶,比如一段病毒式的视频。Trending不是个性化的,它向所有用户显示每个国家/地区的相同热门视频列表。

热门视频列表大约每15分钟更新一次。每次更新时,视频可能会在列表中上移、下移或停留在同一位置。

分析的主要目标是通过探索数据和使用有效的可视化来发现有趣的事实和模式。

哪些视频在趋势列表中出现最多(因为某些视频可能在趋势列表中出现超过一天)?

热门视频的标题长度是多少?平均/最小/最大标题长度是多少?

热门视频的前几类是什么?“娱乐”视频比“游戏”视频更流行吗?

从发布视频到第一次出现在趋势排行榜之间有多少天?

热门视频缩略图中最常见的对象是什么?(对所有缩略图运行AI对象检测算法)。

这个分析是使用Python和一组强大的Python库来执行的,这些Python库包括Pandas、Matplotlib、NLTK、ImageAI、wordcloud等等。

您可以在此链接的Jupyter笔记本中找到用于此分析的所有代码。您可以随意阅读代码并随心所欲地重用它。还要注意的是,笔记本中包含的分析比本文中显示的要多,因此,如果您想查看所有内容,请在阅读完本文后参考笔记本。

使用YouTube API检索此分析中使用的数据。一个脚本计划在2019年全年每天运行,并从YouTube API获取有关当天热门视频的数据。然后,该脚本将处理从YouTube接收的数据,并将其存储在文本文件中。

刮剧本不是我的作品。它可以在Github:Trending-YouTube-Screper上找到。我将脚本放在AWS EC2实例上,并使用Crontab安排它每天在特定时间运行。

2019年结束后,我使用FileZilla应用程序连接到AWS实例,并下载了脚本生成的所有数据。2019年的每一天都有一个文件。要执行分析,我需要处理数据,以便将文件合并到单个CSV文件中。

如果你想下载这份描述2019年美国流行视频的分析中使用的数据,你可以通过这个链接在GumRoad上安全地购买,或者使用下面的按钮。除了美国,你还将获得英国、加拿大、丹麦、马来西亚、沙特阿拉伯和其他国家的热门视频数据。

在这篇文章中,将分析美国的热门视频,这些视频总共构成了72,994个视频。YouTube通常每天在趋势列表中放置200个视频,这意味着我们应该有73,000个(365x200)个视频。我们有72994个。这可能是因为有几天,Trending的视频数量略低于200个。

所以我们有72,994个趋势视频的数据要分析。在YouTube上,同一个视频可能会连续很多天出现在热门榜单上。这意味着这72,994个视频并不是唯一的视频。事实上,在72,994个视频中,我们有11,177个独特的视频。

换句话说,2019年全年有11,177个视频出现在趋势排行榜上。有些人可能在名单上停留了10天,有些人在名单上停留了20天,等等。我们将在稍后的分析中看到更多关于这方面的信息。

下表显示了我们拥有的每个视频的数据示例:

正如我们所看到的,我们有视频的ID,它是YouTube上视频的唯一值(没有两个视频具有相同的ID)。我们还有视频的标题、发布日期和时间、发布它的渠道、它的类别以及它的描述和标签。我们也有视频的点击量、喜欢、不喜欢和评论的数量。表中还显示了更多的数据。

我们可以看到有一个名为“TRENDING_DATE”的字段。此字段指定此视频的流行日期。正如我们前面所说的,相同的视频可能会出现在趋势视频列表中超过一天。这意味着我们可能会在数据中找到相同视频ID的另一条记录,但具有不同的“TRENDING_DATE”,并且可能有不同数量的观看、评论、点赞等(因为这些数字可能会从一天增加到另一天)。

现在让我们开始这篇文章最精彩的部分,让我们来看看分析结果。

请注意,对于以下分析,除非另有说明,否则我们将分析应用于所有72,994个趋势视频,而不只是唯一的趋势视频。背后的原因是我们对YouTube认为流行的视频感兴趣。因此,如果一段视频被认为流行了3天,那么我们认为它比只流行1天的视频具有更大的流行力量和更多的流行特征;因此,它应该有更多的权重。因此,我们在分析中包括了该视频的3个实例。

对于某些分析,只考虑独特的视频更合适。如果是这样的话,你会看到一张纸条告诉你这一点。

点击量最高的热门视频是BTS乐队的一首歌,名为《有爱的男孩》。这段视频发布于2019年4月12日,2019年4月23日,它以195,376,667次的点击量出现在热门榜单上,这是2019年热门视频的最高点击量。

在下表中,您可以看到根据播放量排名前3位的热门视频。这些热门视频出现在热门排行榜上时拥有的浏览量比任何其他热门视频都要多。此表仅考虑了独特的趋势视频(了解更多信息)。

现在我们来看看热门视频的点击量分布情况。下面的直方图显示了此分布:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…。

我们可以看到,绝大多数热门视频在成为热门视频时的点击量都不到2000万次。事实上,当它们成为热门视频时,大约94%的热门视频的点击量不到1000万次,大约99.9%的视频点击量不到1亿次。

现在,我们可能会问:点击量最少的热门视频是什么?下表显示了出现在趋势列表中点击量最低的3个趋势视频。此表仅考虑了独特的趋势视频(了解更多信息)。

你可以看到,这三个视频在发布当天就出现在了趋势排行榜上。也许他们在发布后的最初几个小时内就收到了大量的浏览量,这将他们送上了趋势排行榜。

我们之前提到过,在超过一天的时间里,出现在热门排行榜上的视频很多。我们现在只考虑每个视频的第一次出现。我们想知道一段热门视频在第一次成为热门视频时有多少点击量。

下图显示了趋势视频首次出现在趋势列表中时的观看次数分布:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…。

我们可以看到,有一段视频在点击量达到1.5亿次时成为了热门。我们可以看到另一个当它有大约6000万点击量时变得流行起来。但当点击量不到3000万次时,大多数视频都成为了热门。

90%的热门视频在点击量低于2752317次时首次成为热门。

一段视频在第一次成为热门时的最低点击量是53,796次。

当视频第一次成为热门时,它的平均点击量为1,387,466次。中位数(第50个百分位值)为777,510次。

有些视频不会只在一天内出现在热门排行榜上,也不会在两天内出现。有一些视频在热门榜上出现了30天。下表显示了趋势列表中出现次数最多的视频。在趋势排行榜上出现了30天的视频有6个。

标题是每个视频的重要组成部分。在决定是否点击视频之前,他们会为人们描述视频。正因为如此,视频标题是决定视频成功与否的重要因素之一,视频标题对视频点击率(CTR)起着至关重要的作用。以下是关于2019年热门视频标题的一些有趣的事实。

6%的热门视频标题都是全大写的(如下图所示)。这不考虑数字、符号和表情符号。例如,以下所有标题都被认为是全大写的:“First Title”、“Second Title”、“#3 Title🎉”。

如果我们计算每个趋势视频标题中全大写单词的数量,我们会得到以下分布图:

这意味着大约50%的流行视频的标题中没有全大写的单词,大约20%的标题中有1个全大写的单词,大约10%的标题中有2个全大写的单词,以此类推。

有没有一些词在热门视频标题中比其他词出现得更多?为了找到答案,我分析了所有热门视频的标题,并统计了这些标题中每个单词的出现次数。在此之前,单词中的符号被删除,缩写被它们的扩展所取代。例如,“are‘t”和“we’ll”分别被替换为“are not”和“we will”。

以下是热门标题中最常见的100个单词的词云。单词的大小反映了它的普遍程度:

你可以看到最常见的单词是“the”,因为它是最大的。您还可以看到大的“a”、“to”和“in”。这样的话被称为“停用词”。停用词是在给定语言(在我们的例子中是英语)中非常常见的词。为了获得更好的结果,我们将从我们的分析中排除停用词。

我们现在可以更有意义地看到流行视频标题中最常见的词。要查看确切的共性(频率)值,下表显示了最常见的15个单词及其频率:

有关单词标记化的过程、方法、停用单词规范等的更多详细信息,请查看项目笔记本中的代码。

现在让我们来看看热门视频标题中最常见的符号是什么。以前,我们忽略符号来生成上面的单词Cloud。现在,我们将只考虑符号。下表显示了最常见的符号:

我们可以看到,“-”是出现频率最高的符号。它在热门标题中出现了大约2.3万次。紧随其后的是烟斗“|”,它在热门标题中出现了大约21000次。然后我们找到“。”它发生了16,560次。

现在只考虑表情符号,让我们来看看热门视频标题中最常见的表情符号:

因此,🔥是最常见的,频率为154%,其次是™️,然后是®。

但首先,什么是2克?2-gram是由2个单词组成的序列。例如,如果我们有这样一句话:“您今天好吗?”,那么我们可以从中提取三个2克单词:“您好吗”、“您好吗?”、“您今天好吗?”

如果我们从所有热门视频标题中提取2-gram,那么最常见的是什么?下面的单词“云”回答了这个问题。请注意,每个2-gram的单词都用“-”连接。

在“云”这个词中,我们可以看到一些趋势:我们可以看到“反应”、“反应”、“复仇者终极游戏”、“星球大战”、“安瓦尔·吉巴维”等等。

热门视频标题有多长?下面的框图通过显示标题长度的分布来回答这个问题。

我们可以看到,大多数热门视频的标题长度在36到64个字符之间。标题的平均长度为51个字符。最大标题长度为100,这是YouTube上的最大标题长度限制,最小标题长度为3。实际上,有一个标题长度为3的视频,就是这个名为“DHL”的视频,它在热搜榜上出现了7天:

我们可以看到,Linus Tech Tips是拥有最多热门视频(365个视频)的频道。令人惊讶的是,这是一个科技频道!该频道始于2008年,目前(2020年6月22日)发布了5018个视频。现在看起来是这样的:

热门视频最多的第二个频道是Babish,有361个热门视频。这个频道始于2006年,现在已经发布了311个视频。现在看起来是这样的:

最后,热门视频数量排名第三的频道是Bon Appétit,拥有355个热门视频。这个频道始于2008年,现在已经发布了1149个视频。频道页面现在的外观如下所示:

YouTube将视频分类。示例类别有:娱乐、音乐、体育、喜剧、教育等。下面的条形图显示了每个类别的趋势视频数量。该图表没有包括所有类别,因为有一些类别在2019年没有热门视频。

娱乐类以20849个热门视频位居第一(占2019年热门视频的28.6%)。在娱乐之后是音乐类别,有10236个趋势视频(占2019年趋势视频的14%)。紧随其后的是体育类别,有7565个趋势视频(占2019年趋势视频的10.4%)。

通过查看这张图表,可以了解哪些类型的视频比其他类型的视频更多地出现在趋势排行榜上。

周六发布的热门视频比周一多吗?晚上发布的热门视频比早上多吗?让我们用漂亮的视觉效果来回答这些问题。

注:以下两个图表显示了以GMT时区表示的日期/时间,该时区现在比华盛顿特区早4小时。

下图显示了一周内每天发布的趋势视频数量,按视频数量排序:

我们可以看到,周二发布的热门视频(11,986个)比一周中的其他几天都多。一周中除星期六以外的其他日子都与周二相差不远。周六,它上只发布了7345个热门视频。

下图显示了一天中每小时发布的趋势视频数量,从0开始,代表上午12点,以23结束,代表晚上11点:

我们可以看到,发布热门视频的高峰期是16点到18点(即下午4点到6点)。如果我们将其转换为华盛顿时间(实际上是夏令时),我们会看到高峰时间在华盛顿时间下午12点到2点之间。

我们还可以看到,在华盛顿时间上午2点到7点之间(实际上是夏令时),6点到11点(即6点到11点之间)发布的热门视频要少得多。

上面的两个图表并不一定意味着周二发布的视频成为热门的可能性更高,因为总体来说,周二可能是上传视频更多的一天。因此,我们需要知道2019年一周内每天发布的所有视频(而不仅仅是热门视频)的数量,才能做出这样的声明。同样的道理也适用于一天中的几个小时。

热门视频有多少评论?下面的直方图通过显示我们热门视频的评论数量分布来回答这个问题:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…。

我们可以看到,绝大多数热门视频的评论都在10万条以下。更准确地说,98.7%的热门视频的评论少于10万条,90%的热门视频的评论少于23926条。

我们可以注意到,有一些视频的评论数量很大:我们看到一个视频有大约310万条评论;我们还看到其他几个视频的评论数量在60万到310万之间。

下表显示了根据评论数量排名前3位的热门视频:

我们可以看到,BTS乐队的“恋爱男孩”拥有最多的评论(3120,684条)。我们之前看到这首歌的点击量也是最多的。这首歌之后是YouTube Rewind 2018视频,有2439,661条评论,然后是BlackPink乐队的“Kill This Love”歌曲,有1051,015条评论。

就像我们对点击量所做的那样,当乳清第一次出现在热门榜单上时,我们将看到视频的评论数量。下图向我们展示了这一点:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…。

我们可以看到,绝大多数视频在第一次出现在热门排行榜时,评论都不到5万条。事实上:

90%的热门视频在评论少于14485条时首次成为热门。

一段视频第一次成为热门时,最少只有7条评论。

当视频第一次成为热门时,它的平均评论数量为7718条。中位数(第50个百分位值)为3056条评论。

类似于我们对查看和评论所做的操作,我们希望看到热门视频的喜欢/厌恶数量的分布情况。下面的直方图显示了点赞分布:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…

95%的热门视频点赞不到50万个,72.4%的点赞不到10万个。

然后我们转向厌恶。此直方图显示了对我们的热门视频的厌恶分布:

请注意,y轴是对数缩放的。是10,100,1000…。不是10、20、30…。

99.4%的热门视频不喜欢10,000个,91.5%的不喜欢不超过10,000个。

我们可以看到,2018年和2019年的YouTube倒带视频是2019年最不受欢迎的两个趋势视频。请注意,表中三个视频的不喜欢数量大于喜欢数量,但尽管如此,它们还是成为了热门。

正如我们上面看到的那样,虽然“恋爱男孩”是最受欢迎的热门视频,但它也是最不受欢迎的视频的第5位,有446,003个不喜欢的视频。

换句话说,一段视频从发布到出现在趋势排行榜之间有多少天?下面的框图可以回答这个问题:

平均而言,一段视频在发布5.6天后就会出现在热门榜单上。此外,95%的视频在不到13天的时间里就出现在了热门榜单上。我们还可以看到,在不到一天的时间里,就有一些视频登上了热搜榜。

现在,如果我们只考虑视频在趋势列表中的第一次出现,我们会得到这个框图:

在这种情况下,视频平均需要1.5天才能成为热门。97%的视频在发布后不到2天就出现在热门榜单上。

我们知道每个YouTube视频都可以有一个描述,并且最多。

..