快手海量模型数据处理实践 (快手-海量模型数据处理实践揭秘)

数据处理

本文介绍了快手的数据处理特点和大规模模型的处理方式。快手是一个实时的大模型，在社交平台上具有即时性。每天有超过1500万个新用户上传视频，每天有超过亿级的直播活跃用户，并且上传数同比每年都在增长。快手的日活用户达到了3.87亿，具有千亿级的日均曝光和百亿级的日均播放量。因此，快手的数据处理特点是既大又需要实时处理。

快手的推荐业务架构可以分为大型业务和中小型业务。大型业务的样本量级很大，每天可能有千亿的样本，存储量达到p级别。这类业务采用流式迭代，即在线迭代特征和模型，速度非常快。而中小型业务的样本量大约在百亿级别，存储量几十T。这种情况下，流式迭代需要频繁上线迭代且流量分配不够，所以更适合选择批式迭代。批式迭代需要更多的计算样本，比如回溯至少60天以上。

快手的模型参数量非常大，达到了1.9万亿。这是因为快手使用了SIM长序列模型，需要用户的长期兴趣，并将该序列输入到模型中。由于快手有亿级用户和千亿级样本，导致了参数量的增大。与OpenAI的GPT3模型相比，快手的参数量更大。推荐模型与语言模型密切相关，通常会在语言模型上进行迭代，在成功之后引入推荐模型。常用的语言模型包括DN、RNN和Transformer。

快手对数据的时效性要求很高。用户观看视频后会将其反馈到快手的日志收集系统，用户行为会实时拼接成推荐日志，并进入特征处理和模型训练。模型训练完成后会实时更新到在线预估中，根据模型的更新推荐最符合用户需求的视频。为了实现这一链路，需要保证延迟在一秒内，将用户行为尽快反馈到模型中。快手有千万级在线用户，考虑到行为的多样性，QPS至少为千万级，高峰期可能需要处理30T的数据。

# 新闻资讯 # 大模型 # 快手 # 数据处理

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

快手海量模型数据处理实践 (快手-海量模型数据处理实践揭秘)

掌握文件系统的基本操作对于网络工程 (掌握文件系统的要点-你真的了解吗)

Meta开源大模型 (Meta开源音频生成新模型MAGNeT-吉他摇滚与电子音乐全能搭档-非自回归7倍提速)

相关文章

暂无评论

最新文章

热门标签

快手海量模型数据处理实践 (快手-海量模型数据处理实践揭秘)

掌握文件系统的基本操作对于网络工程 (掌握文件系统的要点-你真的了解吗)

Meta开源大模型 (Meta开源音频生成新模型MAGNeT-吉他摇滚与电子音乐全能搭档-非自回归7倍提速)

相关文章

暂无评论

谷歌广告

最新文章

热门标签