首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2440858
阅读量
187
订阅数
【每日一课】R语言入门教程-1.1 认识R
课程名称:R语言入门教程 第一章:认识R 1.1 认识R 【课程目的】 在大数据时代里,数据分析愈发重要,R语言适合做数据分析,R语言已成为许多数据分析工作者手中的利器,使用R语言可以较好地完成数据分析各个环节中的任务,提高工作的效率。 本课程包括R简介、R数据类型、R数据导入和导出、R环境、R操作数据以及R画图内容。通过本课程的学习,能够掌握R的基本知识,并且能够使用R导入和导出数据、使用R操作数据和画图。 【课程大纲】 第一课:R简介 介绍R的历史、特征,R能够做什么,R软件获取、安装和运行,R
小莹莹
2018-04-25
1K0
数据可视化实践之美
开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。 随着DT时代的到来,传统的统计图表很难对复杂数据进行直观地展示。这几年数据可视化作为一个新研究领域也变得越来越火。成功的可视化,如果做得漂亮,虽表面简单却富含深意,可以让观测者一眼就能洞察事实并产生新的理解。可视化(visualization)和可视效果(visual)两个词是等价的,表示所有结构化的信息表现方式,包括图形、图表、示意图、地图、故事情节图以及
小莹莹
2018-04-24
1.6K0
干货!浅谈知识图谱的构建与应用
自从2012年Geogle推出自己第一版知识图谱以来,各大互联网企业也纷纷推出了自己的知识图谱产品。知识图谱是把所有不同种类的信息连接在一起而得到的一个关系网络,它提供了从“关系”的角度去分析问题的能力,是关系最有效的表达方式,目前在营销、交通、风控场景,知识图谱均有应用。今天,我们从反欺诈的角度浅谈知识图谱的构建与应用。在互联网金融行业,不少的欺诈案件会涉及到复杂的关系网络,而知识图谱可以帮助我们更有效的分析复杂关系中存在的特定的潜在风险,可以提高贷前信审和贷后监控的效率,对于金融风险的控制也有着极大
小莹莹
2018-04-24
1.6K0
大规模爬虫流程总结
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示: 大规模数据采集流程图 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用API接口的访问则处于网站的控制中,网站可以用来收费,可以用来限制访问上限等。整体来看,如果数据采集的需求并不是很独
小莹莹
2018-04-24
1.1K0
数据结构与算法–关键路径
关键路径与无环加权有向图的最长路径 现在考虑一个这样的问题:你今天事情比较多,要洗衣服、做作业还要烧水洗澡,之后出去找朋友玩。假设洗衣服要20分钟,烧水要30分钟,做作业的话你把朋友做好的带回来抄,只需要10分钟。你想能早些去找朋友,但在那之前又必须将那些事做完,你要怎么安排呢?很容易想到,这三者同时进行:打好水开始烧水,衣服扔进洗衣机,回书桌抄作业…20分钟后作业写完了,衣服也洗好了,水还有10分钟水才烧开,利用这时间把洗好的衣服晾晒好,差不多水也烧开了,好了最后去洗澡。简直一气呵成,这是我们能花费的
小莹莹
2018-04-23
1.2K0
【学习】决策树的python实现方法
这篇文章主要介绍了决策树的python实现方法,详细分析了决策树的优缺点及算法思想并以完整实例形式讲述了Python实现决策树的方法,具有一定的借鉴价值,需要的朋友可以参考下 本文实例讲述了决策树的python实现方法。分享给大家供大家参考。具体实现方法如下: 决策树算法优缺点: 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据 缺点:可能会产生过度匹配的问题 适用数据类型:数值型和标称型 算法思想: 1.决策树构造的整体思想: 决策树说白了就好像是if-else结构一
小莹莹
2018-04-23
6510
数据结构常见的八大排序算法
前言 八大排序,三大查找是《数据结构》当中非常基础的知识点,在这里为了复习顺带总结了一下常见的八种排序算法。 常见的八大排序算法,他们之间关系如下: 他们的性能比较: 下面,利用Python分别将他们进行实现。 直接插入排序 算法思想: 直接插入排序的核心思想就是:将数组中的所有元素依次跟前面已经排好的元素相比较,如果选择的元素比已排序的元素小,则交换,直到全部元素都比较过。 因此,从上面的描述中我们可以发现,直接插入排序可以用两个循环完成: 第一层循环:遍历待比较的所有数组元素 第二层循环
小莹莹
2018-04-23
1.1K0
机器学习系列:(七)用PCA降维
用PCA降维 本章我们将介绍一种降维方法,PCA(Principal Component Analysis,主成分分析)。降维致力于解决三类问题。第一,降维可以缓解维度灾难问题。第二,降维可以在压缩数据的同时让信息损失最小化。第三,理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。下面,我们用PCA将一个高维数据降成二维,方便可视化,之后,我们建一个脸部识别系统。 PCA简介 在第三章,特征提取与处理里面,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样
小莹莹
2018-04-23
3.2K0
对大数据的再认识
对大数据的再认识 李国杰 中科院计算所,2015.06 信息 == 人言 + 自心 信息 == 人言经自心悟之 1、从“信息时代新阶段”的高度认识“大数据” 2、理解大数据需要上升到认识论的高
小莹莹
2018-04-23
7120
你弄明白要分析什么数据了吗?
估计大家听大数据听得太多,耳朵都快起茧了吧?谁要IT界不如娱乐界那么精彩热闹,几年才憋出一个流行词,自然大家只要提到数据,都说“大”;提到服务,都说“云”。 言归正传,你弄明白大数据分析要分析什么数据了吗?(弄明白的高手可以直接飘过;没弄明白的,看下面的内容能不能涨姿势) 我们先来简单聊几句有关大数据分析工具的背景。无需置疑,现在大数据平台和大数据分析工具日益普及,作用是可以帮助企业收集和分析数据,好处是可以寻找有价值的商业信息和洞察,以改进产品与服务。大数据分析工具用于分析数据,可以开发预测模型(pre
小莹莹
2018-04-20
6880
【案例】电子健康档案揭秘身体指标数据的去向
image.png 春雨医生建立电子健康档案模块对接后续医生服务,或许解决身体指标数据去哪儿的问题 用户的身体指标数据最终去哪儿?或者换句话说,谁来结构化这些数据,谁来利用他们始终是个问题。按照医疗服务的类型来看,这些有价值的数据最终可以帮助疾病预防、慢病管理、医疗诊断监测、个人档案以及保险等方面。而春雨医生则是从自己最擅长的医生端接入,通过一个电子健康档案模块(ElectronicHealthRecorder,简称EHR),将监测设备(硬件)与医生端连接起来,帮助优化医生的诊断和咨询服务。 这个模块之后
小莹莹
2018-04-20
7920
金融学如何应对人工智能和大数据?
李开复说未来十年金融行业的从业人员很有可能会被人工智能所取代,而人文、文化、艺术方面的领域人工智能尚难以涉及。那么还有学金融学专业的必要吗? 大数据这是一个比较大的话题,同时涉及到了大数据和人工智能两
小莹莹
2018-04-20
1.1K0
【陆勤笔记】《深入浅出统计学》6排列与组合:排序、排位、排列
“蓝色字” 可关注我们! 作者:王陆勤 顺序有时候很重要。《大学》里面有言:物有本末,事有终始,知所先后,则近道矣。 计算排位 推导出用于重复排列的公式 设想你需要清点n个对象的排位方式的数目,再设想
小莹莹
2018-04-20
1.3K0
【学习】七天搞定SAS(一):数据的导入、数据结构
标题有些噱头,不过这里的重点是: speak SAS in 7days。也就是说,知识是现成的,我这里只是要学会如何讲这门语言,而不是如何边学SAS边学模型。顺便发现我最近喜欢写连载了,自从西藏回来后..... 之所以下定决定学SAS,是因为周围的人都在用SAS。为了和同事的沟通更有效率,还是多学一门语言吧。R再灵活,毕竟还是只有少数人能直接读懂。理论上语言是不应该成为障碍的~就像外语一样,多学一点总是好的,至少出门不发怵是不是? 最后一根稻草则是施老师传给我的一个link:http://blog.so
小莹莹
2018-04-19
1.9K0
【学习】七天搞定SAS(一):数据的导入、数据结构
SAS的数据类型 首先,sas的编程大概就两块:Data和PROC,这个倒是蛮清晰的划分。然后目前关注data部分。 SAS的数据类型还真的只有两种:数字和文本。那么看来日期就要存成文本型了。变量名称
小莹莹
2018-04-19
1.9K0
北大数据分析老鸟写给学弟们一封信
以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出身的,故本文没有主线,只有碎片,且文中内容仅为个人观点,许多论断没有数学证明,望统计、计量大牛轻拍。 关于软件。 于我个人而言,所用的数据分析软件包括excel、SPSS、STATA、EVIEWS。在分析前期可以使用EXCEL进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表
小莹莹
2018-04-18
1.5K0
【学习】K近邻算法基础:KD树的操作
Kd-树概念 Kd-树其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。 举一示例: 假设有六个二维数据点 = {(2,3),(5
小莹莹
2018-04-18
1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档