首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏作者
174
文章
275150
阅读量
108
订阅数
用R处理不平衡的数据
在分类问题当中,数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题,样本不平衡的问题在二分类问题中的出现频率更高。举例来说,在银行或者金融的数据中,绝大多数信用卡的状态是正常的,只有少数的信用卡存在盗刷等异常现象。
大数据弄潮儿
2018-06-04
1.6K0
使用Apache Flink进行批处理入门教程
原文地址:https://dzone.com/articles/getting-started-with-batch-processing-using-apache
大数据弄潮儿
2018-05-22
22.3K0
批处理实现最简化数据自动备份
最近一直在考虑oracle数据自动备份到本地的问题,也找机会当面向大牛请教过,得到了一堆关于DG、GG、RAC、DBLINK、ARCHLOG等方面的建议,还有个哥们直接建议我用redis实现。 但因为受服务器配置和网络带宽的限制,以上方法实现起来较繁琐,且有一定的学习成本(毕竟新技术发展太快,早就跟不上潮流了),而且nosql实现起来可能还需要进行二次开发来实现数据库的读写。 磨蹭了大半个月,终于决定还是选择自己最熟悉的批处理来实现异步备份到本地 📷 思路如上图示: 数据库改造,将大表按天建立表分区 服务端
企鹅号小编
2018-02-05
8510
NBA+大数据,数字经济重塑体育帝国!
NBA抓住自身优势数据资源,不断寻求外部合作,如与SAP、Stats、麻省理工斯隆体育分析大会、2K游戏公司以及ESPN、腾讯等合作,利用大数据充分挖掘潜能和价值。 对于NBA,几乎所有人都不会陌生,NBA代表着当今篮球职业联赛的最高水平,同时NBA球员的竞技水平也是世界上最高的。如今NBA的影响力早已遍布全世界,不管是不是篮球迷,每个人都能轻松说出几个耳熟能详的球星。 目前的NBA由30支球队组成,是当今世界篮球最高殿堂。随着NBA在世界范围内的影响力与日俱增,联盟的收入也在不断地增长。1995-1996
企鹅号小编
2018-02-01
8830
No.67 Hadoop 实践案例——记录去重
转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:转自:灯塔大数据;微信:DTbigdata 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了“Hello World”程序的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—
企鹅号小编
2018-02-01
8780
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
QiqiHe
腾讯产品运营
掌握数据处理的新方法!
来自:数据观 https://www.shujuguan.cn/?from=qiehao 一提到数据处理,我们首先想到的就是excel,作为日常必备的办公软件,excel往往是我们进行数据处理时的最忠
企鹅号小编
2018-01-31
5740
数据可视化
今天我们来聊一波有趣的数据可视化。 首先,我们先讲一下我们今天要用到的数据。是来自于 http://www.stat.ubc.ca/~rickw/gapminderDataFiveYear.txt 的世界经济数据。 我们打开前6行可以看到以下部分: X head(X) 📷 其中country就是统计的国家啦,year则是统计获得的年份,这份数据采集了1952年到2007年的数据,每五年进行一次统计,pop则是人口的数目,continent代表国家所在的大洲,包括Aisa,Africa,America,Eur
企鹅号小编
2018-01-29
2.4K0
如何避免大数据分析项目的失败
导语 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。 遵循以下六个最佳做法来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华
企鹅号小编
2018-01-09
1K0
看看那些不在gnomAD数据库出现的常见人群变异位点是什么
本文主要探究了430304个SNP位点在不同人群中的分布情况,并分析了其中3353921个高频变异位点,发现其中77.5%的位点已在dbSNP数据库中出现。此外,作者还探讨了这些变异位点对基因功能的影响,发现只有0.365%的变异位点对基因功能产生了显著影响。总的来说,这些数据为我们提供了深入了解人类基因组变异的窗口,有助于进一步研究遗传病和基因功能。
企鹅号小编
2018-01-08
1.2K0
数据分析入门(二)
企鹅号小编
2018-01-02
5870
数据管理—reshape2包
本文讲述了数据准备和数据管理的重要性,以及使用dplyr和reshape2包进行数据操作的具体例子。数据管理包括数据准备、数据操作和数据可视化,而数据准备又包括数据清洗、数据转换和数据合并等。通过使用这些工具,可以更好地处理和分析数据,从而得出有用的结论。
企鹅号小编
2017-12-27
6990
功能式Python中的探索性数据分析
这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。 在Py
大数据弄潮儿
2017-12-21
1.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档