在这个 基于人工智能的科学 文章,我们探讨如何 网飞 采用开源模型来改进他们的 娱乐推荐系统.
首先,让我们简要讨论一下机器学习的基本含义。 简单来说,机器学习是一种计算机可以从数据中“学习”的技术,而无需使用一组复杂的不同规则。 这种方法主要是基于训练一个模型 数据集. 越好的 质量 的数据集,机器学习模型的准确性越好。
首先,快速浏览一下机器学习和深度学习
机器学习主要有三种形式:
- 监督学习
- 无监督学习
- 强化学习
监督学习基于对标记数据集的训练。
无监督学习使用未标记的数据集。
强化学习的基础是根据算法的正确结果对其进行奖励,如果尝试失败则对其进行惩罚。
与广为人知的主题有关 人工神经网络,还有“深度学习“,这是一种技术 执行机器学习 灵感来自 我们大脑自己的网络 的 神经元.
Netflix 如何使用 AI 进行内容推荐
如果您是或曾经是 Netflix 订阅者,您肯定知道 Netflix 不使用 基于模型. 相反,他们使用纯粹的基于订阅的模型。 这就是为什么 Netflix 希望为您提供尽可能个性化的体验。
为了做到这一点,Netflix 开始探索多种方法来提出这种个人感知模型。 即使您不是 Netflix 订阅者,您也可能想知道 Netflix 如何在用户的 Netflix 帐户上提供这些惊人的推荐,以及 人们是如何爱上 Netflix 的,这在当今时代是如此明显。 你会惊讶地发现其中一些 建议可能是基于果蝇的大脑!
一开始,他们的方法非常简单,基于大数据,完全依赖基于评级的系统。 电影/电视节目推荐完全基于特定节目或电影的评分好坏。 这些评级基于用户反馈、观看次数、视频是否被完整/部分观看和/或 数据库 收视率。
这是一个 纸 来自斯坦福大学,日期为 2008 年 3 月 12 日,说明 Netflix 的推荐是如何基于 IMDB 评级的。
建立在战略决策的坚实基础之上,Netflix 在构建一个出色的学习模型方面取得了长足的进步,以相当高的准确度预测用户下一部最喜欢的未观看电影可能是什么。
2009 年 9 月 21 日,一个 100万美元的奖金 被授予团队“BellKor 的务实混乱” 用于改进 Netflix 的推荐模型。 被称为 Netflix 奖,这是 Netflix 的一项举措,旨在通过以下方式增强用户体验 10% 或更多.
即兴和更新的预测算法是基于协同过滤的。 协同过滤是一种完全基于集体用户衍生反馈的推荐技术。
比如说,一群人看过一部你很有可能真的很喜欢的电影。 但很可能你以前从未听说过这部电影。 通过收集和解释您过去的观看偏好以及已经观看过的人的偏好,推荐系统可以向您推荐那部特定的电影。
另一方面,基于内容的过滤不是基于用户的偏好。 取而代之的是,视频本身之间的比较是基于一种分类类型,例如流派。 那可能是喜剧、浪漫、恐怖、悬疑等等。
此外,我们还有一个混合模型,它结合了上述两种过滤技术。 如果您想深入了解这些,请观看此剪辑:
Netflix 甚至发布了一个 纸 在 ACM 杂志上,题为“Netflix 推荐系统:算法、商业价值和创新”。 该论文可作为开放获取。 论文中强调的一些值得注意的方法如下:
Netflix 用于为用户提供最佳体验的功能和技术:
- 个性化视频排名:PVR
- Top-N 视频排名器
- 现在趋势
- 继续观看
- 视频-视频相似度
- 页面生成:行选择和排名
- 证据选择
- 搜索体验
- 以上所有的统计和机器学习技术
为了能够与上述功能相关联,我们继续注册了 Netflix 的第一个月免费订阅,体验是这样的:
注册后,我们必须选择3个或更多喜欢的电影或电视节目。 所以我们选择了 Baahubali 2、Bright、Sherlock 和 Altered Carbon。 有比下面显示的更多的选择:
按照此, Netflix的人工大脑 开始行动:
因此,基本上,我们选择的数量越多,个性化效果就越好。 此后,我们看到了 Netflix 浏览页面,如下所示:
“我的列表”可以与“Personalized Video Ranker: PVR”相关联,对应于上面列出的 9 种技术中的第一种。
很长一段时间以来,我们一直想看“Altered Carbon”。 所以我们在一开始看了几秒钟:
回到主页,我们注意到一个新的建议:
这对应于“Video-Video Similarity”,因为我们刚刚看了一点“Altered Carbon”。
还有另一个有趣的推荐行,向我们展示了我们可能感兴趣的首选,当我们浏览这个列表时,我们很惊讶,发现没有我们不想看的!
这将与上面列表中的“Top-N Video Ranker”直接相关。 《Ittefaq》是一部悬疑惊悚片,与我们刚签约时选择的《神探夏洛克》属于类似类型。 正如缩略图所暗示的那样,“Revolt”必须属于动作类型,与“Baahubali 2”或“Bright”相同。 所以这源于基于内容的过滤。
“泰戈尔的故事”的推荐让我们更加惊讶。 Netflix 本可以根据 地点. 他们真的有一些令人难以置信的令人兴奋的算法!
因此,这是对 Netflix 实际运作方式的亲身体验。 如果 Netflix 没有采用开源方法 人工智能 和机器学习。 现在让我们看看 Netflix 的开源计划。
Netflix 开放连接计划
Netflix 自己的 内容交付网络 (CDN) 由开源驱动。 他们最初将流媒体服务外包给 阿卡迈, 3级 和 聚光灯. 但最终,他们的计划发生了变化。
Netflix 决定建立自己的 CDN,因为他们想要:
- 成长更快
- 降低成本
- 控制 HTTP 连接的服务器端
- 构建专门用于 Netflix 内容交付的 CDN
- 让内容更接近客户
因此, Netflix 开放连接 应运而生。 也就是说,Netflix 的 CDN 基础是建立在 NGINX Web 服务器和 FreeBSD 操作系统象征着两个强大的支柱。 Netflix 在构建 CDN 时选择使用 BSD 许可证而不是 GPL。 这是因为 互联网服务提供商 主要作为第三方参与。 要深入比较这两个许可证,请点击此处。
选择 NGINX 是因为它以快速和稳定着称,商业支持可从 Nginx, Inc. 它有一个灵活的自定义模块框架。 FreeBSD 还以快速稳定的操作系统着称,并拥有强大的开发者社区。 因此,它成为了一个合适的选择。
以上都是免费和开源的,Netflix 使用了另一个开源项目,称为 BIRD Internet 路由守护进程 但是,它使用 GPL 许可证。 该工具用于 将网络拓扑从 ISP 传输到他们自己的控制系统,该系统将引导客户访问他们各自的内容。
这三个都是处理的好工具:
- 每个设备 400,000 个流文件
- 每个设备 5000-30,000 个客户端流
- 每个磁盘 300-1000 个客户端
上述开放连接倡议在本综合报告中详细讨论 NGINX 大会 记录:
演示幻灯片在这里:
Netflix 开源软件计划
今天,Netflix 的开源软件计划谈到了他们对开源的承诺。 他们有自己的 开源软件中心! Netflix 的 GitHub 页面 清楚地展示了由 52 个开发人员管理的 139 个存储库。 我们刚刚亲身体验过的所有预测结果都由这些独特的开源项目提供支持 GitHub.
Netflix 有自己的深度学习库,名为 向量流, 上文提到的。 还有另一种预测和分析工具,称为 Surus。 它有一个称为 ScorePMML 的功能,可以对模型中的模型进行有效的评分预测。 云. 苏鲁斯也可用于 异常值检测 或者 模式匹配. Netflix 有一个 博文 关于他们。
概括
总而言之,我们首先向您介绍了机器学习,Netflix 如何演变为娱乐推荐系统,与 Netflix 的推荐模型进行比较,以及 Netflix Open Connect,然后是他们的开源软件计划。
感谢您抽出宝贵时间耐心阅读文章。 我们期待更多这样激动人心的探索!
最后,我们想强调一下 Netflix 对 艺术 和 科学 因为不是两个独立的实体。 但作为一个美女 齐声 去创造 奇迹!