首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏成员
2119
文章
2531192
阅读量
188
订阅数
数据可视化到底有什么用?
不过广义上,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。
小莹莹
2018-07-24
9570
入行数据挖掘你需要知道这些知识点
数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。
小莹莹
2018-07-24
1.3K0
大学最让人抑郁的十个专业,看完我真的抑郁了...附2018年必知的最新高校专业变化!
有的专业,会让人渐渐变了性格,也许曾经的你活泼开朗,但自从学了某种专业,你会变得郁郁寡欢,忧心忡忡;也许曾经的你内向、敏感、多疑,但自从学了某种专业,你会变得开朗乐观,看开了一切;也许曾经的你感性、冲动,爱极了热闹,但自从学了某种专业,你也会变的理性、冷静,喜爱享受静谧的美好。那么,看看你的专业,你还记得曾经的你吗?正如那首歌里唱的:“走了这么久,你变了没有?”
小莹莹
2018-07-24
4710
【平台】[Kafka系列]Kafka在大数据生态系统中的价值
作者 Jun Rao 为ODBMS撰写文章的转载。译者 Brian Ling,专注于三高(高性能,高稳定性,高可用性)的码农。 近几年, Apache Kafka的应用有了显著的增长。Kafka最新的
小莹莹
2018-04-25
1.2K0
【平台】HBase学习总结
HBase的下载与安装 (HBase是一种数据库:Hadoop数据库,它是一种NoSQL存储系统,专门设计用来快速随机读写大规模数据。本文介绍HBase的下载与安装的整个过程。) 一、HBase的下载 1.登录HBase官网http://hbase.apache.org/,可看到如图1所示的页面: 图1 登录HBase官网的页面 2.点击图1中的红色小框中的“here”,进入如图2所示的页面。 图2 下载链接 3.点击图2中的红色小框中的链接,进入如图3所示的下载页面。 图3 下载
小莹莹
2018-04-25
3.2K1
【观点】经济学人智库:是什么让大数据落地踟蹰不前?
近日,在2016百分点数据与价值国际论坛上,EIU(全称The Economist Intelligence Unit,经济学人智库)亚洲咨询总监Alexander van Kemenade对于当前商业环境下大数据如何驱动商业运营和管理决策进行了分享。在当前环境下,是什么让大数据落地踟蹰不前?企业应用大数据亟待解决哪些问题?Alexander van Kemenade都做了怎样的阐述?请阅读如下全文。 大数据驱动商业模式革新 技术与人才储备成为挑战 自从大数据理念诞生以来,其在挖掘消费者需求
小莹莹
2018-04-25
7720
【平台】详细总结 Hive VS 传统关系型数据库
本文思路,看图说话,一张图,清晰总结二者区别 下面对图中的各条做详细总结 1 查询语言 不做赘述 2 数据存储位置 不做赘述 3 数据格式 Hive:Hive
小莹莹
2018-04-25
1.4K0
【观点】最适合数据分析师的数据库为什么不是MySQL?!
数据分析师都想使用数据库作为数据仓库处理并操作数据,那么哪一款数据库最合适分析师呢? 虽然网上已经有很多对各种数据库进行比较的文章,但其着眼点一般都是架构、成本、可伸缩性和性能,很少考虑另一个关键因素:分析师在这些数据库上编写查询的难易程度。最近,Mode的首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。 Benn Stancil认为数据分析工作不可能一蹴而就,分析师在使用数据库的过程中阻碍他们速度的往往不是宏观上的性能,而是编写查询语句时的细节。例如,在
小莹莹
2018-04-25
3K0
缺失值的处理方法
对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。 值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。如果我们仅有数据库的数据模型,而缺乏相关说明,常常需要花费更多的精力来发现这些数值的特殊含义
小莹莹
2018-04-25
2.6K0
深度 | 我国医疗大数据技术的发展趋势
目前我国的医疗行业现状是:优质医疗资源集中在大城市,地方以及偏远地区医疗条件较差,医疗资源的配置不合理,导致了大量的长尾需求,催生了广阔的互联网医疗市场。在此背景下,互联网的“连接”属性得以发挥,有效提高了长尾市场的信息流通,降低了产品扩大受众群的成本,而大数据技术的应用能够使得医疗服务更加完善和精准。 医疗大数据的应用主要指的是将各个层次的医疗信息和数据,利用互联网以及大数据技术进行挖掘和分析,为医疗服务的提升提供有价值的依据,使医疗行业运营更高效,服务更精准,最终降低患者的医疗支出。 目前,中国医疗大
小莹莹
2018-04-25
2.9K0
从实战角度解读数据科学
原文:What is hardcore data science—in practice来源:https://www.oreilly.com/ideas/what-is-hardcore-data-science-in-practice 典型的数据科学工作流程如下:第一步永远是找出问题,然后收集相关数据,可能来自于数据库或者开发记录。视你所在机构的数据可用性而定,这可能就已经非常困难了,你必须先弄清楚谁能让你有权访问那些数据,然后弄清楚谁能确保你顺利拿到那些数据。得到数据后,接着对其进行预处理,提取
小莹莹
2018-04-24
5670
推荐 :如何才能获得一份数据科学家的职位
? 作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:“如何才能获得一份数据科学家的职位?” 不仅这个问题经常被问引起了注意,另外问这个问题的人不同的背景也非
小莹莹
2018-04-24
6970
只需七步就能掌握Python数据准备
摘要: 本文主要讲述了如何在python中用七步就能完成中数据准备。 上图为CRISP-DM模型中的数据准备   下面七个步骤涵盖了数据准备的概念,个别任务以及从Python生态系统中处理整个任务过程的不同方法。 维基百科将数据清洗定义为:   它是从记录集、表或者数据库检测和更正(或删除)损坏或不正确的记录的过程。指的是识别数据的不完整、不正确、不准确或不相关的部分,然后替换、修改或删除它们。数据清洗(data cleaning)可以与数据整理(data wrangling)的工具交互执行,也
小莹莹
2018-04-24
1.6K0
【微报告】校园行(上)之社交大数据概念理解及应用案例
一、大数据 1、大数据时代 随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
小莹莹
2018-04-24
8520
大数据时代统计学发展的若干问题
作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。 一、引言 随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在
小莹莹
2018-04-24
3K0
【学习笔记】MySQL的常用操作命令整理
缘由:初次接触命令行操作MySQL数据库,使用还不熟练,故整理之,方便日后查阅。 备注: 用户登录MySQL后,对数据库操作的命令基本都以”;” 或 “g”结尾。 一. MySQL服务操作: 启动MySQL服务: net start mysql 停止MySQL服务: net stop mysql 进入MySQL数据库: mysql -h 主机地址 -u用户名 -p用户密码 退出MySQL操作: quit; 刷新数据库: flush privileges; 创建数据库用户: 一次可以创建多个数据库用户,如:
小莹莹
2018-04-24
9630
HBase在腾讯大数据的应用实践
前言 随着腾讯产品与技术的发展,几乎任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数从亿到百亿,对海量数据的高效插入和快速读取变得越来越重要。而传统关系型数据库模式固定、强调参照完整性、数据的逻辑与物理形式相对独立等,比较适用于中小规模的数据,但对于数据的规模和并发读写方面进行大规模扩展时,RDBMS性能会大大降低,分布式更为困难。 为什么会选择HBase? 高可靠性。HBase是运行在Hadoop上的NoSQL数据库,它的数据由HDFS做了数据冗余,具有高可靠性。同时TDW(腾讯分布式数据
小莹莹
2018-04-24
9920
如何从一开始就设计好数据分析的基本框架
关于数据分析,避免6个错误 1.走得太快,没空回头看路 初创公司里的人们仿佛一直在被人念着紧箍咒:“要么快要么死,要么快要么死。”他们是如此着急于产品开发,以至于他们常常没有空想用户对产品的具体使用细节,产品在哪些场景怎么被使用,产品的哪些部分被使用,以及用户回头二次使用产品的原因主要有哪些。而这些问题如果没有数据难以回答。 2.你没有记录足够的数据 光给你的团队看呈现总结出来的数据是没有用的。如果没有精确到日乃至小时的变化明细,你无法分析出来数据变化背后看不见的手。如果只是粗放的,断续的统计,没有人可以解
小莹莹
2018-04-24
5710
先搞懂这八大基础概念,再谈机器学习入门!
翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。 概览: 自然语言处理 数据库 计算机视觉 监督学习 无监督学习 强化学习 神经网络 过拟合 1 自然语言处理 自然语言处理对于许多机器学习方法来说是
小莹莹
2018-04-24
4480
趣文 | 程序员们,都进来看看编程语言之父都有谁
1、PHP PHP之父,Rasmus Lerdorf,1994年,为了要维护个人网页而制作的一个简单的用Perl语言编写的程序。这些工具程序用来显示 Rasmus Lerdorf 的个人履历,以及统计
小莹莹
2018-04-24
7590
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档