人工智能LeadAI-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

人工智能LeadAI

专栏成员

461

文章

660237

阅读量

104

订阅数

推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

深度学习推荐系统数据处理解决方案数据

在本系列第三篇文章中，在处理DeepFM数据时，由于每一个离散特征只有一个取值，因此我们在处理的过程中，将原始数据处理成了两个文件，一个记录特征的索引，一个记录了特征的值，而每一列，则代表一个离散特征。

2023-03-28

5980

推荐系统遇上深度学习(十七)--探秘阿里之MLR算法浅析及实现

编程算法 https 网络安全数据处理正则表达式

阿里近几年公开的推荐领域算法可真不少，既有传统领域的探索如MLR算法，还有深度学习领域的探索如entire -space multi-task model，Deep Interest Network等，同时跟清华大学合作展开了强化学习领域的探索，提出了MARDPG算法。从本篇开始，我们就一起来探秘这些算法。这里，我们只是大体了解一下每一个算法的思路，对于数学部分的介绍，我们不会过多的涉及。

2019-05-08

9520

文本数据处理的终极指南-[NLP入门]

简介实现任何程度或者级别的人工智能所必需的最大突破之一就是拥有可以处理文本数据的机器。值得庆幸的是，全世界文本数据的数量在最近几年已经实现指数级增长。这也迫切需要人们从文本数据中挖掘新知识、新观点。

2018-03-30

1.4K0

请不要把数据分析和机器学习混为一谈

数据处理机器学习

经常看到有很多人把机器学习和数据分析混为一谈，因此我想分析一下机器学习和数据分析这两个职位之间有什么不同，他们干的事情有什么不同，并且借此来分析下两者的技术背景有什么不同。首先呢这两者的第一个区别就是他们处理的数据特点不一样。那么怎么可以简单地理解呢？ 1、数据处理特点不同首先从我们的传统上。数据分析他们所处理的是交易数据，而我们机器学习处理的则是行为数据。那么，什么是交易数据，什么是行为数据呢？比如说对于一个电商来说，他的用户交易数据就是下单，比如说对于银行这样的系统来说，他的交易数据就是用户的存取

2018-03-09

5940

数据预处理 | 机器学习之特征工程

机器学习数据处理

作者：苏小保（jacksu）华为工程师擅长分布式系统、大数据、机器学习。github地址：https://github.com/jacksu 通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。定性特征不能直接使用：某些

2018-03-09

1K0

机器学习实战 | 数据探索(变量变换、生成)

机器学习数据处理

1.1、什么是变量变换？在数据建模中，变换是指通过函数替换变量。例如，通过平方/立方根或对数x替换变量x是一个变换。换句话说，变换是一个改变变量与其他变量的分布或关系的过程。 1.2、什么时候需要变量变换？当我们想要改变一个变量的比例（change the scale）或标准化（standardize）变量的值以便更好地理解。如果数据具有不同的尺度，则此变换是必须的，但此变换不会更改变量分布的形状。对应处理方法：机器学习之特征工程-数据预处理(无量纲化)。当我们将复杂的非线性关系转化为线性关系时

2018-03-08

1.9K0

机器学习实战 | 数据探索(缺失值处理)

机器学习数据处理

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接接着上一篇：《机器学习实战-数据探索》介绍，机器学习更多内容可以关注github项目：machine learning（https://github.com/jacksu/machine-learning）《机器学习实战-数据探索》介绍了1、变量识别；2、单变量分析；3、双变量分析，现在接着介绍缺失值处理。为什么需要处理缺失值呢？训练数据集中缺少的数据可以减少模型的拟合，或者可能导致模型偏差，因为没有正确地分析变量的行为

2018-03-08

1.7K0

tensorflow读取数据-tfrecord格式

tensorflow 数据处理

概述关于tensorflow读取数据，官网给出了三种方法： 1、供给数据：在tensorflow程序运行的每一步，让python代码来供给数据 2、从文件读取数据：建立输入管线从文件中读取数据 3、预加载数据：如果数据量不太大，可以在程序中定义常量或者变量来保存所有的数据。这里主要介绍一种比较通用、高效的数据读取方法，就是tensorflow官方推荐的标准格式：tfrecord。 tfrecord数据文件 tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件，能更好的利用内存，在tenso

2018-03-08

2.6K0

数据清洗、合并、转化和重构

1、数据清洗是数据分析关键的一步，直接影响之后的处理工作 2、数据需要修改吗？有什么需要修改的吗？数据应该怎么调整才能适用于接下来的分析和挖掘？ 3、是一个迭代的过程，实际项目中可能需要不止一次地执行这些清洗操作 4、处理缺失数据：pd.fillna()，pd.dropna() 1、数据连接（pd.merge） 1、pd.merge 2、根据单个或多个键将不同DataFrame的行连接起来 3、类似数据库的连接操作示例代码： import pandas as pd import numpy as np

2018-03-08

9010

数据清洗经验

平时习惯了在某些特定的数据集合上做实验，简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代，数据清洗越来越重要，也越来越复杂。看到Philip J.Guo 的这篇英文文章Parsing Raw Data（http://pgbovine.net/parsing-raw-data.htm）觉得不错，学习并译成中文，难免谬误，仅供参考。前言科研工作者、工程师、业务分析者这些和数据打交道的职业，数据分析在他们工作中是一项核心任务。数据分析不仅仅针对“大数据”的从业者，即使你笔记本硬盘

2018-03-07

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态