首页
学习
活动
专区
工具
TVP
发布

程序生活

专栏作者
436
文章
463311
阅读量
57
订阅数
字节跳动安全Ai挑战赛-小样本赛道方案总结字节跳动安全Ai挑战赛-小样本赛道方案总结
在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。 给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。 数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。
致Great
2021-12-09
4290
大数据入门与实战-Spark上手
Apache Spark是一种闪电般快速的集群计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型,以便有效地将其用于更多类型的计算,包括交互式查询和流处理。Spark的主要特性是其内存中的集群计算,可以提高应用程序的处理速度。
致Great
2019-03-19
1K0
大数据入门与实战-Hive操作与SQL 查询
Hive的SQL基本上和我们原先的MYSQL的SQL查询效果差不多,下面是一些实例:
致Great
2019-03-19
5910
大数据入门与实战-Hive
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用在好多不同的公司。例如,亚马逊使用它在 Amazon Elastic MapReduce。
致Great
2019-03-15
5680
大数据入门与实战-Hadoop生态圈技术总览
MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:
致Great
2019-03-15
9790
大数据入门与实战-Hadoop核心HDFSHadoop简介一、 HDFS概念及优缺点二、HDFS写流程与读流程三、Shell命令操作HDFS四 、Python程序操作HDFS
课程链接:https://www.imooc.com/video/16287 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 详情见:Hadoop基本介绍 一、 HDFS概念及优缺点 应用场景与特点 普通的成百上千的机器 按TB甚至PB为单位的大量的数据 简单便捷的文件获取 HDFS概念 数据块是抽象块而非整个文件作为存储单元,默认大小为64MB,一般设置为128M,备份
致Great
2018-05-04
7170
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档