机器学习AI算法工程-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习AI算法工程

机器学习，深度学习，大数据，公众号：datayx

专栏成员

1348

文章

2599343

阅读量

335

订阅数

python与Spark结合，PySpark的机器学习环境搭建和模型开发

hadoop mapreduce https 网络安全

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。去年，在100 TB Daytona GraySort比赛中，Spark战胜了Hadoop，它只使用了十分之一的机器，但运行速度提升了3倍。Spark也已经成为针对 PB 级别数据排序的最快的开源引擎。

机器学习AI算法工程

2019-10-28

1.4K0

大数据工程师薪资在什么水平？

大数据数据库 hadoop

新一轮毕业季即将到来，就业问题又将成为讨论的热点，今年会是大学生们就业的春天吗？据权威数据显示，2015年全国普通高校毕业生人数达到749万，2016年全国普通高校毕业生人数达到765万，2017年的毕业生总人数再创新高，达到700万。大学生们面临的就业形势依然严峻，就业的春天不会来临。那么毕业生们应该怎么做呢？我们先来分析下就业形势。在全国仅34%企业招聘活动保持稳定的现状下，每年毕业的大学生人数正在不断的上涨，一个岗位可能存在上百的竞争者。在这样残酷的就业环境下，求职者更应该找好自己的方向。土木

机器学习AI算法工程

2018-03-15

3K0

Python+Hadoop 从DBLP数据库中挖掘经常一起写作的合作者

python hadoop 数据挖掘

任务描述：本文的写作目的是从DBLP数据库中找到经常一起写作的合作者。熟悉数据挖掘中频繁项挖掘的经典算法（FP-Growth）并作出改进和优化。实验代码用Python写的，分别在本地（Win8）和Hadoop集群（条件有限，虚拟机上跑的，3个节点）上实现。（下载本文所涉及全部代码https://github.com/findmyway/DBLP-Coauthor) 任务分解：从DBLP数据集中提取作者信息建立索引作者ID并对文件编码分析数据的规模构建FP-Tree并从FP-Tree得到频繁

机器学习AI算法工程

2018-03-13

1.7K0

运用Spark进行交通数据案例分析：大型活动大规模人群的检测与疏散

spark 数据分析大数据 hadoop

作者：科赛网汪梦梦邓以勒今天主要是以一个数据分析者的角度来与大家分享如何使用spark进行大数据分析。我将分以下4部分为大家进行介绍。首先介绍spark的相关背景，包括基本概念以及spa

机器学习AI算法工程

2018-03-13

2.2K0

手把手教你成功搭建Hadoop-2.2集群

作者：白宁超成都信息工程大学硕士原文：http://www.cnblogs.com/baiboy/p/4639474.html hadoop集群配置系列文档，是笔者在实验室真机环境实验后整理而得。以便随后工作所需，做以知识整理，另则与博客园朋友分享实验成果，因为笔者在学习初期，也遇到不少问题。但是网上一些文档大多互相抄袭，里面错误百出。笔者结合自学书籍视频等资料，完成这一套配置资料。实验结果和过程经过反复测试无误后方整理出来的。配置过程中，初学者若有实验环境，可以在真机环境下完成，若无条件，可补习下

机器学习AI算法工程

2018-03-13

1.3K0

海量Web日志分析用Hadoop提取KPI统计指标

Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。对于日志的这种规模的数据，用Hadoop进行日志分析，是最适合不过的了。目录 Web日志分析概述需求分析：KPI指标设计算法模型：Hadoop并行算法架构设计：日志KPI系统架构程序开发1：用Maven构建Hadoop项目 1. Web日志分析概述 Web日志

机器学习AI算法工程

2018-03-13

2K0

基于Hadoop 的分布式网络爬虫技术

hadoop 分布式爬虫

一、网络爬虫原理 Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统，比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外，还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断获得网络上的其它网页。正是因为这种采集过程像一个爬虫或者蜘蛛在网络上漫游，所以它才被称为网络爬虫系统或者网络蜘蛛系统，在英文中称为 Spider或者Crawler。

机器学习AI算法工程

2018-03-13

3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态