通过数据分析 找出网飞最适合学英语的电影和电视剧


?到2020年,网飞将有大约3712部电影和1845个电视节目。假设你正在学习英语,有很多内容可以选择,但你可能并不总是读完所有的内容。这就是为什么需要数据科学技能来分析关于网飞的1500部最佳电影和电视节意向文本。本意是给你提供很多好的选择,让你找到自己喜欢的电影或者电视节目,这对学习英语也很有帮助,而不是强迫你看自己不喜欢的电视节目。

为了找到网飞最好的电影和电视节目,我比较了对话中使用的词汇。在为网飞的英语学习者展示最好的内容之前,让我们比较一下最好的内容(假设英语不是你的母语,那么它是最差的内容)。

以及最好和最差的网飞自制产品。

以下图片展示了网飞自己的电影,这些电影在英语词汇难度上排名前十和后十。如你所见,他们之间使用的词汇有很大的不同。比如电影《Bird Box》中94.5%的单词你只需要知道最多的1000个英语单词就可以理解,但是电影《Spelling The Dream》中94.5%的对话你至少需要3000个单词才能理解。剩下的2000个单词可以是为什么你不明白对话在说什么,即使你的英语水平很高!

因此,我们可以从看小词汇量的电视节目和电影开始。让我们从网飞最简单最酷的内容开始吧!

网飞最佳电视节目。

当然,关于网飞的美剧和英剧是为以英语为母语的人制作的。这就是为什么,假设英语不是你的母语,你可能会发现在某些场景中很难理解对话。幸运的是,根据词汇的难易程度,我在网飞目录中排名了大约500个一级电视节目(223个网飞自创产品)。

因为词汇量短,《老友记》《Friends》被认为是学习英语最好的电视节目之一。但是,这个电视节目在网飞目录中排名只有第78位,这意味着其他77个电视节目和老友记一样好,甚至非常好!比如根据我的发现,电视剧中的词汇比如《The End Of The F*ing World》(第13位)或者《13 Reasons Why》(第40位)更简洁。

通过在下面的方框中搜索词汇,你可以在你喜欢的电视节目中找到词汇的难度。你会发现他们的排名和词汇量。在整个网飞目录中,前10名电视节目的词汇最简单。

假设你正在寻找一个适合你英语水平的完美电视节目,那么这对你来说是个好消息!我还对所有英语水平进行了排名(初级、中级和高级)。最右边的程序在每个级别使用更多的单词。掩盖率越高,越能对电视节目中的剧集有一个简要的了解。

这些是网飞目录中的顶级电视节目。网飞不能播放一些你喜欢的电视节目,但是;现在分析了一些电视节目,比如《权力的游戏》或者《辛普森一家》。此外,您所在地址国家的网飞目录可能略有不同。因此,我只列出了最能在全球范围内销售的网飞自创产品。

以下是网飞十大英语学习项目:

神灵

早上好

潮淹区

容易的

黑色的夏天

夏季

婴儿

顶级男孩

血统

世界末日

网飞最佳影片目录。

如果你更喜欢电影,网飞也有很棒的电影供你学习英语。我根据词汇难度对网飞最受期待的950部电影(173部网飞电影)进行了排名。排名前100的热门电影有《Bird Box》 (30)、《Spiderman Into The Spiderverse》 (84)和《The Pursuit Of Happyness》 (81)。

你可以通过以下场景找到最适合你英语水平的电影。最右边的电影为初学者、中级和高端水平提供了更多的词汇。记住,这些是在网飞目录中找到的顶级电影。你不会在网飞找到像《哈利波特》、《阿凡达》或《玩具总建议》这样的电影。

我还列出了网飞自己的电影,以防你们地址国家的网飞目录不同,它们最有可能在全球范围内播出。

以下是十部最适合学习英语的网飞电影:

在高高的草丛中(2019)

暗恋(2020)

《阳光下》(2020)

危险的谎言(2020)

鸟盒(2018)

你会带谁去荒岛(2019)

地震鸟(2019)

爱情婚礼重演(2020)

帕德尔顿(2019)

6个气球(2018年)

使用数据。

在这次分析中,我使用了三个主要数据集,包括文本、网飞目录和网飞原件列表。我谷歌了一下,发现了很多分析记录。使用目录将录制的文本与网飞的标题进行匹配。您可以在Kaggle()上找到网飞目录数据集。它包括2019年在网飞可以看到的电影,所以今天在网飞看不到一些电影或电视节。最后,我找到了网飞在2020年之前发布的自创剧集(IMDB)列表,对我的分析非常有用。

分析方法。

我已经用Python完成了所有这些分析。下面是我如何准备数据:

为了分析课文中的单词,我用符号表示了人物所说的所有单词。Python中用于符号化的东西很多,但是我用的是CountVectorizer,因为它把收集到的记录转化成符号计数的数据表,简化了分析。

我有必要找到引理化:分词后每个符号的词根方法。您可以通过使用像引理化这样的技巧来做到这一点,这可以在NLTK库中找到。不过我用的是词库列表,功能差不多,也是按词频列出每个词的难度。到2020年,这里有一个29个字的家庭列表,你可以在这里找到一些()。这些清单与语言学和学习英语作为第二语言有关。

通过数据分析 找出网飞最适合学英语的电影和电视剧插图

题前评价。

数据:我删掉了电影或者电视剧里听不到的词,比如场景描述,说话人名字。我还清理了跨越对话中3.5%的单词,与单词族列表不匹配的文本(可能是异常值或损坏的数据)。

不完整的代码:

一些分析和发现问题。

我在电视节目中用来给单词分类的大部分词汇都是由语料库构成的。词汇等级是基于语料库中发现的单词的频率,这意味着这些文本中最常见的单词被标记为等级1。虽然早期的研究已经证明了这个列表是可靠的,但是对于各种意思的单词并不是很准确。例如,单词“draw”在列表中被标记为级别1。之所以会出现这种情况,是因为这个词一般用在指“制作图像”的时候,但如果意思是“取出袭击者或人的武器”或“得出结论”,可能就不是一级了。

我花了几个星期找太阳清理,处理数据,然后了解结果。然而,结果并不完美。电影中的发现可能比电视节目中的更准确。电影的书面记录只有,但电视节的意向不同,再加上每个电视节的意向书面记录数量。这就是为什么我从每个节目的3到10集收集样本,以获得包含在统一的电视节目集中的词汇。

总的来说,查询结果建议了很多非常适合每个词汇层次的内容,但其中有些内容还是让我很惊讶。比如我发现第62名《酒囊饭袋》让我很惊讶。我不是电视节的忠实支持者,但我不认为有僵尸的虚拟节目会在对话中使用简单的词语。查了一下文字记录,我承认《酒囊饭袋》中的词汇要求在整个剧情中有很多层次。也就是说,有些情节可能比其他情节更难理解。

作者弗兰克安德拉德。

Deephub翻译组

原始地址:

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注


Warning: mkdir(): Permission denied in /www/wwwroot/www.dgguorui.cn/wp-content/plugins/super-static-cache/super-static-cache.php on line 113

Warning: file_put_contents(/www/wwwroot/www.dgguorui.cn/super-static-cache/41701/index.html): failed to open stream: No such file or directory in /www/wwwroot/www.dgguorui.cn/wp-content/plugins/super-static-cache/super-static-cache.php on line 388