飞机晚点一个半小时,趁这个时间总结总结吧。
今天从公司离职,没想到老大竟然亲自送我,受到这么高的规格待遇,真是受宠若惊啊。
这次实习可谓是收获满满,一个是技术、二是业务,还有认识了一位可爱的妹子。
说到数据智能,这里要特别感谢带我入门的JN师兄和我的队友QX,从第一个京东金融的信贷需求预测开始,到最后的阿里妈妈广告点击,让我学到了最基本的数据类问题的通用套路。而现在的网易AI实习、考拉会员拉新项目,则让我学到了真实业务上的操作方式。
实际项目相对于比赛,我认为主要的区别有以下几点:
- 实施方式多样,真实业务的最终目标可能很明确,但是达成这个目标的方式会有很多种,而且他们的效果也不尽相同,所以具体的实施方案就需要自己去想去尝试;
- 训练样本构造复杂,一般的数据竞赛都会提供比较”干净“的数据集,做少量的处理就可以直接用来训练,但是真实业务的训练样本需要自己构造,可以说对于电商来说,想要什么数据就有什么数据,而且不同的构造方式对最终的结果会有非常大的差异,怎么去构造一个训练集使得更贴近目标、更符合真实业务的数据分布,是需要不断地去推敲;
- 特征抽取复杂,除了抽数据之外,提特征也是一个相当重要的工作,首先数据仓库里面有各种类型的数据,得要自己不断去理解,知道自己想要什么,有什么,还得根据具体的业务,自己去构造特征,而且在构造特征的时候,还要看看它有哪些数据,它的数据是从哪里来的,怎么来的;
- 线上测试谨慎,线上的资源非常宝贵,把算法模型放到线上测的时候一定要在线下做好充分的准备,而且要考虑各种风险因素,比如用户的体验等等。不像比赛线下测一测有提高,就扔到线上提交。
至于模型上的,由于我参与的较少,这里就不多说了。
技术
这段实习体验下来,接触最多的应该是数据ETL的工作,而在算法模型上的时间非常非常少。 此外还了解了不少数据仓库的概念,比如说是什么东西,它的架构,怎么来的,怎么用等等。 考拉这边有一个相对完善的数据仓库,从最底端的ODS层,到上面的ADI接口层,里面有各种维度丰富的数据,我们在做数据分析或者算法模型的时候,可以直接拿来调用
业务
算法怎么做,样本怎么选,特征怎么构造,选什么模型等等都需要和业务相结合。