首页
学习
活动
专区
工具
TVP
发布

马一特

专栏作者
30
文章
38441
阅读量
11
订阅数
大数据教程-01HDFS的基本组成和原理
起源于2003年谷歌的Google File System相关论文,随后Doug Cutting(我们下面就叫他切哥吧)基于GFS的论文实现了分布式文件系统,并把它命名为NDFS(Nutch Distributied File System)。
马一特
2022-05-10
4930
机器学习01-入门
其实机器学习的理论在2010年后已经有了重大突破,为什么在这一年突然爆发了呢?AlphaGo的推动只是催化剂,主要的原因在于摩尔定律,也就是计算机硬件发展了到了足够承载海量的数据进行计算。
马一特
2021-09-26
3150
数据分析与数据挖掘 - 09邻近算法
邻近算法又叫做K临近算法或者KNN(K-NearestNeighbor),是机器学习中非常重要的一个算法,but它简单得一塌糊涂,其核心思想就是样本的类别由距离其最近的K个邻居投票来决定。现在假设我们已经有一个已经标记好的数据集,也就是说我们已经知道了数据集中每个样本所属于的类别。这个时候我们拥有一个未标记的数据样本,我们的任务是预测出来这个数据样本所属于的类别。显然邻近算法是属于监督学习(Supervised Learning)的一种,它的原理是计算这个待标记的数据样本和数据集中每个样本的距离,取其距离最近的k个样本,那么待标记的数据样本所属于的类别,就由这距离最近的k个样本投票产生。在这个过程中,有一个动作是标记数据集,这一点在企业中一般是有专门人来负责标记数据的。
马一特
2020-10-09
8050
数据分析与数据挖掘 - 08图形绘制
Matplotlib是数据可视化工作中,最常用的一个可视化库。Matplotlib有非常多的图形,我们很难在短时间内将其掌握,所以我们首先要掌握的是画图的思路和常用的一些图形。创建一个图的步骤大致可以分为9步,当然这9步并不是每一次都需要,只要你知道一个完整的图形可以有这么多的步骤就可以。每一个步骤对应着一个操作和操作它的函数。
马一特
2020-10-09
2.4K0
数据分析与数据挖掘 - 07数据处理
Pandas是数据处理中非常常用的一个库,是数据分析师、AI的工程师们必用的一个库,对这个库是否能够熟练的应用,直接关系到我们是否能够把数据处理成我们想要的样子。Pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加的简单,它专注于数据处理,这个库可以帮助数据分析、数据挖掘、算法等工程师岗位的人员轻松快速的解决处理预处理的问题。比如说数据类型的转换,缺失值的处理、描述性统计分析、数据汇总等等功能。 它不仅仅包含各种数据处理的方法,也包含了从多种数据源中读取数据的方法,比如Excel、CSV等,这些我们后边会讲到,让我们首先从Pandas的数据类型开始学起。 Pandas一共包含了两种数据类型,分别是Series和DataFrame,我们先来学习一下Series类型。 Series类型就类似于一维数组对象,它是由一组数据以及一组与之相关的数据索引组成的,代码示例如下:
马一特
2020-09-24
2.6K0
数据分析与数据挖掘 - 05统计概率
在统计学中为了观察数据的离散程度,我们需要用到标准差,方差等计算。我们现在拥有以下两组数据,代表着两组同学们的成绩,现在我们要研究哪一组同学的成绩更稳定一些。方差是中学就学过的知识,可能有的同学忘记了 ,一起来回顾下。 A组 = [50,60,40,30,70,50] B组 = [40,30,40,40,100] 为了便于理解,我们可以先使用平均数来看,它们的平均数都是50,无法比较出他们的离散程度的差异。针对这样的情况,我们可以先把分数减去平均分进行平方运算后,再取平均值。
马一特
2020-09-22
6630
数据分析与数据挖掘 - 06线性代数
导数是高等数学中非常重要的知识点,也是人工智能的算法应用中比较常用的一个知识,这一章我们的重点就是讲解一下导数和其求导法则。首先我们来看一下导数的基本概念:函数的变化率,即函数的变化速度,叫做函数的导数。 设函数y = f(x) 在函数x0的某邻域内有定义,当x在点x0有增量∆x(x0+∆x仍在该邻域内)。这时y=f(x)有增量∆y=f(x0+∆x)-f(x0),当∆x无限趋近于零时,∆y/∆x存在,则这个极限值就叫做函数y=f(x)在点x0处的导数,公式如下:
马一特
2020-09-22
8370
wordpress:您的主机禁用了mail()函数,找回用户名和密码
我们使用的方式是通过一段代码生成一个新的用户名和密码,傻瓜式操作,复制粘贴即可。 // 找到主题下的functions.php文件,在 <?php 下面 添加如下代码 add_action( 'te
马一特
2020-09-10
1.2K0
数据分析与数据挖掘 - 04科学计算
在人工智能的研发中,其本质就是把一切问题转化为数学问题,所以数学运算非常重要。很多数学运算采用的都是numpy这个库,因为它提供了非常多的科学计算的方法,能让我们的工作变得非常便利,这一章我将从numpy的基本使用开始,逐渐解决掉那些数学问题,让Python与数学能够更紧密的结合在一起。
马一特
2020-09-10
5450
数据分析与数据挖掘 - 03智能对话
我们在处理很多数据分析任务时,不可避免地涉及到与文本内容相关的知识,这是属于文本挖掘(text mining)的内容,显然是NLP技术的范畴,基于这样的考虑我们先来对自然语言处理有一个基本的认识。
马一特
2020-09-08
7100
数据分析与数据挖掘 - 02基础操练
在这一章我们将使用基础的Python库pandas,numpy,matplotlib来完成一个数据分析的小项目,推荐使用Anaconda环境下的jupter-notebook来进行练习。
马一特
2020-09-08
6620
数据分析与数据挖掘 - 01入门介绍
数据分析就是用合适的方法来发挥出数据的最大价值,这是一门结合了统计学,高等数学,工程学,商业决策等知识的技能,其中高等数学,工程学和统计学这些都是硬技能,而商业决策是属于软技能,数据分析师就是具备这些技能的岗位。数据分析师也有所侧重点,有的人是商业出身,偏向于商业领域,有的人是统计学出身,偏向于统计领域,有的人是工程学出身,更偏向于it领域。企业在进行招聘的时候,他们会根据自己的需求选择合适的数据分析师。
马一特
2020-09-08
5000
ImportError: /lib64/libm.so.6: version `GLIBC_2.23' not found (required by /usr/local/python37/lib/p
这个错误的出现往往与我前面的一篇文章 ImportError: /lib64/libm.so.6: version `CXXAB_1.3.8.' not found (required by /usr/local/python37/lib/python3.7/site-packages/tensorflow/python/_pywrap_tensorflow_internal.so) 的错误共同出现,这两个错误不仅看似相似,解决办法相似,而且还有极大的关联性,一不小心,可能就会陷入极难修复的境地。
马一特
2020-09-08
5.4K0
Python爬虫抓取唐诗宋词
Python语言的爬虫开发相对于其他编程语言是极其高效的,在上一篇文章 爬虫抓取博客园前10页标题带有Python关键字(不区分大小写) 的文章中,我们介绍了使用requests做爬虫开发,它能处理简单 的任务,也是入门爬虫最简单的方式。接下来我们将为大家介绍使用 beautiful soup 库 来做稍微复杂一点的任务。
马一特
2020-09-08
5600
爬虫抓取博客园前10页标题带有Python关键字(不区分大小写)的文章
写一个简易的爬虫程序,抓取博客园网站首页前10页中所有文章标题带有Python关键字(不区分大小写)的文章,并把文章链接和文章标题存入硬盘,要求如下:
马一特
2020-09-08
1.2K0
ModuleNotFoundError: No module named 'phkit.pinyin'
在mac系统本地使用正常,在linux系统上phkit包缺少相应的python文件
马一特
2020-09-08
8200
Linux: scp文件,目录上传下载标准版
例如: 将服务器上 /server_path 路径下的 test.txt 文件 下载到本地 /local_path/local_dir 目录中
马一特
2020-09-08
1.2K0
ImportError: /lib64/libm.so.6: version `CXXAB_1.3.8.' not found (required by /usr/local/python37/lib
使用在AI项目中,由于需要用到tensorflow,scipy,sklearn等这些库,所以需要libstdc++库。
马一特
2020-09-08
7560
如何解决Linux系统下pyaudio安装缺少文件问题error: portaudio.h: 没有那个文件或目录
pyaudio的运行需要依赖于portaudio这个库,应该先安装一个portaudio库
马一特
2020-09-08
2.2K0
完美解决 python ImportError: Failed to import any qt binding
问题背景 在ContOS服务器上测试项目 解决方案 谷歌查询 解决步骤 降低matplotlib版本至2.2.2 pip3 install matplotlib==2.2.2 出现新的问题,ImportError: Matplotlib qt-based backends require an external PyQt4, PyQt5,PySide or PySide2 package to be installed, but it was not found. 解决方法:安装PyQt5 pip3 in
马一特
2020-09-08
4.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档