首页
学习
活动
专区
工具
TVP
发布

人工智能LeadAI

专栏成员
461
文章
659395
阅读量
104
订阅数
推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案
在本系列第三篇文章中,在处理DeepFM数据时,由于每一个离散特征只有一个取值,因此我们在处理的过程中,将原始数据处理成了两个文件,一个记录特征的索引,一个记录了特征的值,而每一列,则代表一个离散特征。
用户1332428
2023-03-28
5890
推荐系统遇上深度学习(十七)--探秘阿里之MLR算法浅析及实现
阿里近几年公开的推荐领域算法可真不少,既有传统领域的探索如MLR算法,还有深度学习领域的探索如entire -space multi-task model,Deep Interest Network等,同时跟清华大学合作展开了强化学习领域的探索,提出了MARDPG算法。从本篇开始,我们就一起来探秘这些算法。这里,我们只是大体了解一下每一个算法的思路,对于数学部分的介绍,我们不会过多的涉及。
用户1332428
2019-05-08
9520
文本数据处理的终极指南-[NLP入门]
简介 实现任何程度或者级别的人工智能所必需的最大突破之一就是拥有可以处理文本数据的机器。值得庆幸的是,全世界文本数据的数量在最近几年已经实现指数级增长。这也迫切需要人们从文本数据中挖掘新知识、新观点。
用户1332428
2018-03-30
1.4K0
请不要把数据分析和机器学习混为一谈
经常看到有很多人把机器学习和数据分析混为一谈,因此我想分析一下机器学习和数据分析这两个职位之间有什么不同,他们干的事情有什么不同,并且借此来分析下两者的技术背景有什么不同。 首先呢这两者的第一个区别就是他们处理的数据特点不一样。那么怎么可以简单地理解呢? 1、数据处理特点不同 首先从我们的传统上。数据分析他们所处理的是交易数据,而我们机器学习处理的则是行为数据。那么,什么是交易数据,什么是行为数据呢? 比如说对于一个电商来说,他的用户交易数据就是下单,比如说对于银行这样的系统来说,他的交易数据就是用户的存取
用户1332428
2018-03-09
5940
数据预处理 | 机器学习之特征工程
作者:苏小保(jacksu) 华为工程师 擅长分布式系统、大数据、机器学习。github地址:https://github.com/jacksu 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。 信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。 定性特征不能直接使用:某些
用户1332428
2018-03-09
1K0
机器学习实战 | 数据探索(变量变换、生成)
1.1、什么是变量变换? 在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立方根或对数x替换变量x是一个变换。 换句话说,变换是一个改变变量与其他变量的分布或关系的过程。 1.2、什么时候需要变量变换? 当我们想要改变一个变量的比例(change the scale)或标准化(standardize)变量的值以便更好地理解。 如果数据具有不同的尺度,则此变换是必须的,但此变换不会更改变量分布的形状。对应处理方法:机器学习之特征工程-数据预处理(无量纲化)。 当我们将复杂的非线性关系转化为线性关系时
用户1332428
2018-03-08
1.9K0
机器学习实战 | 数据探索(缺失值处理)
点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接 接着上一篇:《机器学习实战-数据探索》介绍,机器学习更多内容可以关注github项目:machine learning(https://github.com/jacksu/machine-learning) 《机器学习实战-数据探索》介绍了1、变量识别;2、单变量分析;3、双变量分析,现在接着介绍缺失值处理。 为什么需要处理缺失值呢? 训练数据集中缺少的数据可以减少模型的拟合,或者可能导致模型偏差,因为没有正确地分析变量的行为
用户1332428
2018-03-08
1.7K0
tensorflow读取数据-tfrecord格式
概述关于tensorflow读取数据,官网给出了三种方法: 1、供给数据:在tensorflow程序运行的每一步,让python代码来供给数据 2、从文件读取数据:建立输入管线从文件中读取数据 3、预加载数据:如果数据量不太大,可以在程序中定义常量或者变量来保存所有的数据。 这里主要介绍一种比较通用、高效的数据读取方法,就是tensorflow官方推荐的标准格式:tfrecord。 tfrecord数据文件 tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件,能更好的利用内存,在tenso
用户1332428
2018-03-08
2.6K0
数据清洗、合并、转化和重构
1、数据清洗是数据分析关键的一步,直接影响之后的处理工作 2、数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 3、是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 4、处理缺失数据:pd.fillna(),pd.dropna() 1、数据连接(pd.merge) 1、pd.merge 2、根据单个或多个键将不同DataFrame的行连接起来 3、类似数据库的连接操作 示例代码: import pandas as pd import numpy as np
用户1332428
2018-03-08
9000
数据清洗经验
平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数据清洗越来越重要,也越来越复杂。看到Philip J.Guo 的这篇英文文章Parsing Raw Data(http://pgbovine.net/parsing-raw-data.htm)觉得不错,学习并译成中文,难免谬误,仅供参考。 前言 科研工作者、工程师、业务分析者这些和数据打交道的职业,数据分析在他们工作中是一项核心任务。数据分析不仅仅针对“大数据”的从业者,即使你笔记本硬盘
用户1332428
2018-03-07
1.3K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档