首页
学习
活动
专区
工具
TVP
发布

机器学习AI算法工程

机器学习,深度学习,大数据 ,公众号:datayx
专栏作者
1330
文章
2440811
阅读量
326
订阅数
用R语言对上海市链家二手房数据分析
via : https://mp.weixin.qq.com/s/DS4fFs0-rLD0UPkdTwQ5k
机器学习AI算法工程
2018-03-14
2.6K0
R语言数据处理:飞机航行距离与到达延误时间有什么关系??
数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点,我想大部分使用EXCEL的童鞋都深有体会,写论文时,这么多的数据进行处理,手动汇总、筛选、变换,工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。 本文试图通过一个案例,对神奇的dplyr包的一些常用功能做简要介绍
机器学习AI算法工程
2018-03-14
3K0
机器学习算法的R语言实现:朴素贝叶斯分类器
1、引子 朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中朴素的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。 2、实例 最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“
机器学习AI算法工程
2018-03-14
1.1K0
用R语言爬取美国新总统-川普的twitte进行数据分析
Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。 本文是关于如何使用Twitter R包获取twitter数据并将其导入R,然后对它进行一些有趣的数据分析。 第一步是注册一个你的应用程序。 为了能够访问Twitter数据编程,我们需要创建一个与Twitter的API交互的应用程序。 📷 注册后你将收到一个密钥和密码: 📷 📷 获取密钥和密码后便可以在R里面授权我们的应用程序以代表我们访问Twitt
机器学习AI算法工程
2018-03-14
2.7K1
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云. 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程。 * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、
机器学习AI算法工程
2018-03-14
1.1K0
R语言 使用BP神经网络进行银行客户信用评估
一、学习R语言AMORE包中的newff函数 这是个前馈神经网络工具包,类似的还有nnet,RSNNS等。AMORE比nnet参数要丰富一些。AMORE用来构建前馈神经网络的函数是newff. newff(n.neurons, learning.rate.global, momentum.global, error.criterium, Stao, hidden.layer, output.layer, method) 其中。n.neurons是个数值向量,包含在每个层的神经元的数目。第一
机器学习AI算法工程
2018-03-14
1.3K0
用R语言建立学生的学习表现和性格特征数据模型
一、项目介绍: 方法包括以下步骤 S1:将个体表现数据输入到数据库; S2:建立学习者的学习表现数据库和性格特征数据库; S3:建立学习者的学习表现数据模型和性格特征数据模型; S4:使用数据算法计算学习表现数据; S5:输出个体性格特征。 步骤(S1)中的个体表现数据为诸如以下类型且不局限于以下类型的个体表现: 旷课、请假、迟到、早退; 课堂纪律、上课说话、上课玩手机、上课吃东西、上课看与学科内容无关的书、上课期间随意进出、上课手机响铃、上课做其他科作业、上课睡觉、上课坐姿不端正; 课堂上抢答举手、表达
机器学习AI算法工程
2018-03-14
9600
如何用R语言从网上读取多样格式数据
生活中,我们面临着各种各样的数据:比如你的成绩单,比如公司的财务报表,比如朋友圈的一些状态,比如微信里的一段语音……我们生活的大数据时代的一个重要特征便是数据的多样化(variety)。
机器学习AI算法工程
2018-03-14
6.8K0
python爬虫+R数据可视化 实例
Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 第一,数据准备模块 数据来源选用笔者所在学校的内网(校内俗称OB),采用保存cookie模拟登录,以板块为单位,进行论坛帖子的抓取,并且根据发贴人的连接,再深入到发贴人的主页进行发贴人个人公开信息的抓取,最后以每一条帖子作为
机器学习AI算法工程
2018-03-14
1.6K0
R语言与点估计学习笔记(EM算法与Bootstrap法)
众所周知,R语言是个不错的统计软件。今天分享一下利用R语言做点估计的内容。主要有:矩估计、极大似然估计、EM算法、最小二乘估计、刀切法(Jackknife)、自助法(Bootstrap)的相关内容。 点估计是参数估计的一个组成部分。有许多的估计方法与估计理论,具体内容可以参见lehmann的《点估计理论》(推荐第一版,第二版直接从UMVU估计开始的) 一、矩估计 对于随机变量来说,矩是其最广泛,最常用的数字特征,母体的各阶矩一般与的分布中所含的未知参数有关,有的甚至就等
机器学习AI算法工程
2018-03-14
2.4K0
R语言实现主成分和因子分析
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。 1.R中的主成分和因子分析 R的基础安装包中提供了PCA和EFA的函数,分别为princomp ()和factanal() psych包中有用的因子分析函数 函数描述 principal()含多种可选的方差放置方法的主成分分析fa()可用主轴、最小残差、加权最
机器学习AI算法工程
2018-03-14
2.4K0
妹子如何运用R语言数据分析选择心仪的对象?
前提假设 妹子们一生中可以遇到100个追求者,追求者的优秀程度符合正态分布; 每个妹子都具备判断并比较追求者优秀程度的能力; 接受或拒绝一个追求者后永远无法后悔。 那么,问题来了 男神这么多,当遇到选择困难症时,如何选择才能获得最优结果? 如果人的优秀程度符合均值为80,方差20的正态分布,随机产生100个追求者,其优秀程度分布情况见下图: p=rnorm(100,80,20) hist(p,main="追求者--统计", ylab="数量", xlab="优秀程度", col=rainbo
机器学习AI算法工程
2018-03-14
9800
R语言-中国各城市PM2.5数据间的相关分析
中国各城市PM2.5数据间的相关分析 相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。分类: 线性相关分析:研究两个变量间线性关系的程度,用相关系数r来描述。常用的三种计算方式有Pearson相关系数、Spearman和Kendall相关系数。 偏相关分析:当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。如控制年龄和工作经验的
机器学习AI算法工程
2018-03-14
2.7K0
用GA算法设计22个地点之间最短旅程-R语言实现
某毕业班共有30位同学,来自22个地区,我们希望在假期来一次说走就走的旅行,将所有同学的家乡走一遍。算起来,路费是一笔很大的花销,所以希望设计一个旅行方案,确保这一趟走下来的总路程最短。 旅行商问题是
机器学习AI算法工程
2018-03-14
1.1K0
R语言进行中文分词,并对6W条微博聚类
由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。 尝试过使用K-means方法,但结果并不好,所以最终采用的是层次聚类,也幸亏结果还不错……⊙﹏⊙ ---- 分词(Rwordseg包): 分词采用的是Rwordseg包,具体安装和一些细节请参考作者首页 http://jliblog.com/app/rwordseg。请仔细阅读该页提供的使用说明pdf文档,真是有很大帮助。 安装: P.S. 由于我是6
机器学习AI算法工程
2018-03-14
1.9K0
用R语言预测股票价格涨跌—基于KNN分类器
K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间相邻的样本中的大多数属中的k个最于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻
机器学习AI算法工程
2018-03-14
4.2K4
R语言与分类算法-神经网络
人工神经网络(ANN)从以下四个方面去模拟人的智能行为: 物理结构:人工神经元将模拟生物神经元的功能 计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统。人工神经网络中也有大量有局部处理能力的神经元,也能够将信息进行大规模并行处理 存储与操作:人脑和人工神经网络都是通过神经元的连接强度来实现记忆存储功能,同时为概括、类比、推广提供有力的支持 训练:同人脑一样,人工神经网络将根据自己的结构特性,使用不同的训练、学习过程,自动从实践中获得相关知识 神经网络是一种运算模型,由大量的
机器学习AI算法工程
2018-03-14
1.1K0
用R语言实现对不平衡数据的四种处理方法
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。 本文会介绍处理非平衡分类数据集的一些要点,并主要集中于非平衡二分类问题的处理。一如既往,我会尽量精简地叙述,在文
机器学习AI算法工程
2018-03-14
2.3K0
用R语言作社群关系分析
在反映大量人群或事物之间的关系时,社交网络图可以清晰的展示’群体’的内含和外延。例如,群体的规模、核心、与其他群体的交叠情况。 社交关系图来表示应用人数和之间的交叠关系,这样更加美观,特别是当应用较多
机器学习AI算法工程
2018-03-14
2.3K0
用R语言构建神经网络模型评估银行客户信用的好坏
随着银行业务的扩展、P2P的出现、第三方支付提供个人贷、以及X宝等借贷平台的出现,使得个人信用评估在银行、第三方支付、商业借贷平台等上的应用越来越重要。本文利用BP人工神经网络对商业银行针对个人的信用等级评价进行了探讨,建立了神经网络的评价模型,对此做出了实例分析。 个人信用等级评估指标体系 商业银行个人信用等级评估指标体系设立的目的简述为银行通过评估借款人的“3C”,即品德(Character)、能力(Capacity)以及抵押(Collateral),对借款人在债务期满时偿债能力(Ability
机器学习AI算法工程
2018-03-14
1.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档