Kaggle比赛 & Presentation 总结

最近模式识别大作业是在kaggle上进行比赛,然后进行上台展示。学习了其他组的经验和展示方式,总结一下,向着他们学习。

题目:负面评论分类

1. 要做什么:问题描述

2. 充分全面可视化的 data explore

  • train/test 数量、比例
  • 有无 null
  • 文本是什么语言的?有其他语言吗?
  • 列 labels 之间相关吗?用关联规则挖掘

3. 特征工程

寻找可能和 label 相关的特征,并做相关性分析

4. 算法整体流程图

让观看的人一目了然

5. 数据清洗

  • 对于评论,有个组把非英文用google翻译成了英文
  • 针对缺失样本:用平均值 / 删除 / 设置为常量
  • 评论要做情感分类,所以有些符号不能完全删除,比如笑脸,感叹号等等,不要全部删除

6. 模型、框架选择

  • fastai 搭建模型比 keras 快
  • fastai 可以自己寻找最优学习率
  • inception 框架可以代替人工选择卷基层滤波器大小
  • 采用 ensemble 方法加权集成多个方法,一般会有提升
  • 针对loss的特点进行优化:比如把预测限制在0.2-0.8
  • TTA: test time argumentation
  • 创建独特的网络结构

7. 打造亮点

模型大家用的都差不多,所以必须有自己独创的方面和亮点。

  • 做模型卷积层可视化,看模型学到了什么
  • 展示需要有一步步分析和改进,为什么之前的不 work,什么才 work

8. 负面结果展示

模型有好的一面,也有处理不好的情况,展示这些情况,全面反映模型的性能

9. 总结

最后要有总结,体会,这样会让观众觉得有始有终。

其他:

  1. 考虑受众和PPT的充实性,可以介绍一些基本的网络参数和loss设置等细节。
  2. 干什么事情要早做打算,前紧后松,这样才不至于到了 deadline 忙手忙脚,应付了事。
  3. 很多组排名已经进了前三,所以一切皆有可能,加油吧!