专栏首页李蔚蓬的专栏2018.01.21.一周机器学习周记

2018.01.21.一周机器学习周记

时间:2018.01.21.一周

主要内容


1.整理前期关于决策树的一个小型实践项目文档(实践进行中)

2.搭建TensorFlow环境(进行中)

3.拓展:实践Python的自动化模块pyautogui模块

4.后期承得前会长吴师兄的参考文档,开始对腾讯算法大赛进行项目研究

内容摘要及相关概况


决策树实践项目

详见项目文档

搭建TensorFlow环境

1.通过pip安装TensorFlow基本包

2.在cmd处import tensorflow

3.根据提示,在官网下载对应的CUDA版本,下载完成后进行安装(安装之前先卸载本地的旧版本)

4.下载cuDNN对应的压缩包

pyautogui模块

本周实践了一系列pyautogui模块的函数,这里主要摘要一个实践:

功能

实时给出鼠标当前位置的x、y坐标,也给出这个像素的RGB颜色

代码

腾讯算法大赛

参考于前会长吴师兄的文档

本周进度

由赛题属于广告学范畴,一开始通过对 转化率预估此篇文章的阅读,对相关概念有所理解

随后,阅读理解了 腾讯算法大赛以及 FAQ 部分

赛题要求

官方提供17-30天移动 APP 的广告、用户的转化情况,及相关上下文, 根据这些数据预测第31天指定用户和对应广告的转化率.

评估方式 (赛题中提供的计算公式)

通过Logarithmic Loss评估(越小越好),公式如下:

其中,

N是测试样本总数,

yi是二值变量,取值0或1,表示第i个样本的label,

pi为模型预测第i个样本 label为1的概率。

示例代码(Python语言实现):

项目目的

主要在于剖析和学习大赛中取得 第64 名大牛的分享, 对其代码进行理解和分析, 主要着重点在于特征工程。

机器学习的主要流程

机器学习流程

数据分析和清洗方法

关于数据分析,阅读FAQ可知:

App 的激活定义为用户下载后启动了该App,即发生激活行为。从用户点击广告到广告系统得知用户激活了App(如果有),通常会有较长的时间间隔,主要由以下两方面原因导致:

1) 用户可能在下载之后过了很久才启动App;

2) 用户启动App的行为需要广告主上报回传给广告系统,通常会有一定的延时。

这里回流时间表示了广告主把App激活数据上报给广告系统的时间,回流时间超过5天的数据会被系统忽略。

值得注意的是,本次竞赛的训练数据提供的截止第31天0点的广告日志,因此,对于最后几天的训练数据,某些label=0并不够准确,可能广告系统会在第31天之后得知label实际上为1。

某些app和用户的记录比较少

最后几天有部分数据不准确

对于这个问题, 这里采用了比较暴力的方法, 将最后几天这些可能会出现问题的数据删除

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • File was loaded in the wrong encoding

    凌川江雪
  • 关于腾讯算法大赛

    赛题比较难理解, 因为赛题属于广告学范畴, 如果实在难以理解赛题的可以先看看这篇文章, 看完再重新看一遍赛题就会通透许多转化率预估

    凌川江雪
  • 关于try...except和try ....except...else

    我们写程序的时候,有时会出现一些错误或异常,导致程序终止。例如,做除法时,除数为0,会引起一个ZeroDivisionErro:

    凌川江雪
  • Affiliate实战记录之一:CPI、CPA、CPM...名词解释

    (Cost Per Mille,或者Cost Per Thousand;Cost Per Impressions) 每千人成本,按展示次数收费

    sunsky
  • 【独立开发】从点子到创收

    上一篇文章讲了,想做独立开发,从一开始,我们怎样才能有一个所谓的“好点子”。首先,你要拓宽思路、发散思维地去想;然后,要把这些想法真正地和日常生活中的实际需求结...

    KyXu
  • 只需2步,轻松搞定iPhone与Win10通讯录同步

    在iPhone和Mac之间共享联系人很容易,因为这两个设备都是在苹果的云中同步的。但你知道你也可以与Windows10电脑共享iPhone联系人吗?下面开始讲解...

    程序员小助手
  • 石油和天然气行业中的物联网应用

    通过采用物联网应用,石油和天然气部门可以提高安全性并同时扩大利润,而资产跟踪和预测性维护解决方案的影响最大。石油和天然气物联网应用甚至可能对于在日益加剧的地缘政...

    用户4122690
  • 使用Facebook的FastText简化文本分类

    本博客提供了详细的分步教程,以便使用FastText进行文本分类。为此,我们选择在Amazon.com上对客户评论进行情绪分析,并详细说明如何抓取特定产品的评论...

    银河1号
  • Python识别验证码的另一种花样玩法

    这里使用了 pytesseract 来进行验证码识别,它是基于 Google 的 Tesseract-OCR ,所以在使用之前需要先安装 Tesseract-O...

    猫咪编程
  • 使用Facebook的FastText简化文本分类

    本博客提供了详细的分步教程,以便使用FastText进行文本分类。为此,我们选择在Amazon.com上对客户评论进行情绪分析,并详细说明如何抓取特定产品的评论...

    银河1号

扫码关注云+社区

领取腾讯云代金券