(读论文)推荐系统之ctr预估-FNN模型解析

今天要介绍的论文也是之前看的一篇经典的推荐相关的论文(FNN),最近要快点更新啊,要赶上最新看的进度。

原论文:《Deep learning over multi-field categorical data》


1、问题由来


基于传统机器学习模型(如LR、FM等)的CTR预测方案又被称为基于浅层模型的方案,其优点是模型简单,预测性能较好,可解释性强;缺点主要在于很难自动提取高阶组合特征携带的信息,目前一般通过特征工程来手动的提取高阶组合特征。

而随着深度学习在计算机视觉、语音识别、自然语言处理等领域取得巨大成功,其在探索特征间高阶隐含信息的能力也被应用到了CTR预测中。较早有影响力的基于深度学习模型的CTR预测方案是在2016年提出的基于因子分解机的神经网络(Factorization Machine supported Neural Network, FNN)模型,就是我们今天要分享的内容,一起来看下。


2、模型



FNN模型如下图所示:

(FM的详细解释可看我上一篇文章):

我们可以看出这个模型有着十分显著的特点
  1. 采用FM预训练得到的隐含层及其权重作为神经网络的第一层的初始值,之后再不断堆叠全连接层,最终输出预测的点击率。    
  2. 可以将FNN理解成一种特殊的embedding+MLP,其要求第一层嵌入后的各特征域特征维度一致,并且嵌入权重的初始化是FM预训练好的。     
  3. 这不是一个端到端的训练过程,有贪心训练的思路。而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合。

  为了方便理解,如下图所示,FNN = FM + MLP ,相当于用FM模型得到了每一维特征的嵌入向量,做了一次特征工程,得到特征送入分类器,不是端到端的思路,有贪心训练的思路。


3、FNN的优缺点



优点:每个特征的嵌入向量是预先采用FM模型训练的,因此在学习DNN模型时,训练开销降低,模型能够更快达到收敛。

缺点:

  1. Embedding 的参数受 FM 的影响,不一定准确。
  2. 预训练阶段增加了计算复杂度,训练效率低。
  3. FNN 只能学习到高阶的组合特征;模型中没有对低阶特征建模

实现FNN的一个Demo,感兴趣的童鞋可以看下我的github

-------------本文结束-------------