IJCAI阿里妈妈搜索广告转化预测

2018年9月10日 0 条评论 52 次阅读 0 人点赞

思想流程回顾

1.数据分析

使用pandas、seaborn对数据进行分析及可视化处理,更容易得到特征与特征及特征和label间的关系。统计及可视特征为item、user、时间点分布等。

2.数据清洗

(1)缺失数据处理

数据中存在大量缺失值,以-1标注(赛题已给出)。对于连续变量中的缺失值,采用均值代替。对于离散型变量使用中位数或众数代替。

(2)数据提取

对时间数据进行解脱敏,格式化为日期(共7天),其中6天提取为测试数据,第7天提取为验证数据。

3.特征工程

1.组合特征一

使用user_id和(item_id、shop_id、time)设计交叉特征,可得组合特征user_item(用户与商品)、user_shop(用户与店铺)、user_time(用户与时间)之间的关系,更好的描述用户喜好

2.组合特征二

使用item_id和(shop_id、time)设计交叉特征,可得组合特征item_shop(商品与店铺)、item_time(商品与时间)之间的关系,更好的描述商品属性。

4.模型设计

xgboost、lightgbm组合模型

lightgbm在分类效果及运算速度上明显优于xgb,但生成组合模型并加以权重优化后,效果有所提升。

权重设计lgb,xgb = 0.8,0.2,实测效果较好。

5.总结

1.一个小的回顾吧,5月20号提交之后再也没管这个项目,时隔3月,补上此篇。从数据分析、可视化、到对特征的思考、理解,最后模型选择、调参。实属我上半年最费心血的项目。

其中,对特征的把握和模型选择体现了一定的思想。

组合特征1描述了用户画像,组合特征2描述了商品特征,这两个维度是推荐系统重中之重。转化率预测的目的之一是推荐,在预测中穿插推荐思想,使预测项目在预测之时提高准确性,预测之后有更高的利用价值。

树形结构在有监督二分类问题上有天生的优势,使用主流的两个gbdt模型,对结果的准确性有较大的帮助

2.展望,在实际场景中,得到测试集相对困难(即无法得到需预测用户前一天,甚至上午的点击率,浏览商品数目等特征)。所以采用迁移学习,是解决实际问题较为优秀的方法。对于预测的理解,专家系统,以及迁移学习,在今后的项目中还需多实践。

 

 

lyssom

这个人太懒什么东西都没留下

文章评论(0)