首页
学习
活动
专区
工具
TVP
发布

机器学习与统计学

专栏作者
793
文章
1098387
阅读量
96
订阅数
机器学习:从开发到生产(全彩)
下面举个仅需要在研究环境中进行数据分析或建模即可满足需求的例子,即在文章标题中找到与较高点击率相关的关键词。数据分析师的交付方式可能是将探索出的规律和结论报告给一个运营团队,这样运营人员就可以在新的标题中尝试使用探索出的规律和结论来提高点击率。
统计学家
2022-05-26
4250
算法工程师的修养 | 图解SQL
https://blog.csdn.net/horses/article/details/104553075
统计学家
2021-10-11
6530
干掉 Navicat! 一款数据分析师必备的数据库可视化工具
市面上比较流行的数据库管理工具主要有Navicat、DBeaver、SQLyog等等,Navicat是其中的无冕之王,其拳头产品Navicat Premium可满足现今数据库管理系统(支持单一程序同時连接多达7种数据库:MySQL、MariaDB、SQL Server、SQLite、Oracle、MongoDB和PostgreSQL数据库。)的常用功能,包括存储过程、事件、触发器、函数、视图等。但是Navicat是收费软件,虽然可以破解,但是还是比较麻烦,而且在查看表结构和表内容时切换不是很方便。
统计学家
2021-02-05
2.1K0
Python操作Oracle数据库:cx_Oracle
Python操作Oracle数据库多用cx_Oracle这个第三方扩展,总体而言,cx_Oracle的使用方式与Python操作MySQL数据库的pymysql库还是很相似的,如果还没有安装,可以通过下面的命令进行安装: $ pip install -i https://pypi.douban.com/simple cx_oracle 使用前导入:
统计学家
2020-05-01
4K0
Python数据分析之利用pymysql操作数据库
mysql应该说是如今使用最为普遍的数据库了,没有之一,而Python作为最为流行的语言之一,自然少不了与mysql打交道,pymysql就是使用最多的工具库了。
统计学家
2019-12-23
1.3K0
科技公司最爱的50款开源工具,你都用过吗?
本文介绍了多款知名的开源应用软件,科技公司可以用它们来管理自己的 IT 基础设施、开发产品。
统计学家
2019-12-06
6540
一千行MySQL命令
非常不错的总结,强烈建议保存下来,需要的时候看一看。 基本操作 数据库操作 表的操作 数据操作 字符集编码 数据类型(列类型) 列属性(列约束) 建表规范 SELECT UNION 子查询 连接查询(join) TRUNCATE 备份与还原 视图 事务(transaction) 锁表 触发器 SQL编程 存储过程 用户和权限管理 表维护 杂项 基本操作 /* Windows服务 */ -- 启动MySQL net start mysql -- 创建Windows服务 sc create
统计学家
2019-09-17
2K0
带你建立一个完整的机器学习项目
首先,我们需要预览这个项目。项目的目的是什么,以房价预测为例,数据为StatLib的加州房产数据,那么目的就是预测街区的房产价格中位数。
统计学家
2019-09-03
6300
10个可以快速用Python进行数据分析的小技巧
一些小提示和小技巧可能是非常有用的,特别是在编程领域。有时候使用一点点黑客技术,既可以节省时间,还可能挽救“生命”。
统计学家
2019-06-28
1.8K0
《Nature》最新研究:大数据预测你的偶像何时凉凉?
最近一项发表在《Nature》子刊 Communications 中的研究引起了科学界和演艺界的广泛关注,来自伦敦玛丽皇后学院数学系的几位研究人员,发布了一篇关于《通过量化方法,预测演员事业发展周期》的文章。
统计学家
2019-06-14
4250
进阶数据库工程师 你需要Get这些技能
所谓DBA,就是我们通常说的数据库管理员,主要从事数据库安装、管理、调优、备份、容灾、集群、安全等。DBA除了对数据库本身比较熟悉外,还要对硬件(主机、存储、网络)、操作系统等方面有较好的理解,否则很难成为真正的高手。
统计学家
2019-05-22
1.3K0
四种聚类方法之比较
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。  聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。  聚类技术[2]正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进,而不同的方法适合于不同类型的数据,因此对各种聚类方法、聚类效果的比较成为值得研究的课题。 1 聚类算法的分类  目前,有大量的聚类算法[3]。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。  主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。  每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。  目前,聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶 属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如著名的FCM算法等。  本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。 2 四种常用聚类算法研究 2.1 k-means聚类算法  k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。  k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地 选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。 这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:
统计学家
2019-04-23
2.5K0
Python学习 Day 6 模块
在一个模块中,我们可能会定义很多函数和变量,但有的函数和变量我们希望给别人使用,有的函数和变量我们希望仅仅在模块内部使用。
统计学家
2019-04-10
4130
【数据分析 R语言实战】学习笔记 第一章 数据分析导引
(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。
统计学家
2019-04-10
4190
Python基础教程 读书笔记(2)第二章 列表和元组
列表和元组的主要区别在于,列表可以修改,元组则不能。也就是说如果要根据要求来添加元素,那么列表可能会更好用;而出于某些原因,序列不能修改的时候,使用元组则更为合适。使用后者的理由通常是技术性的,它与Python内部的运作方式有关。这也是内建函数可能返回元组的原因。一般来说,在几乎所有的情况下列表都可以替代元组。
统计学家
2019-04-10
4560
一篇文章彻底明白Hive数据存储的各种模式
Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中   Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储   在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中,那么是将数据复制到表所在的目录中)。   Hive中主要包含以下几种数据模型:Table(表),External Table(外部表),Partition(分区),Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。   1、表:Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置,这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上),我们可以根据实际的情况来修改这个配置。如果我有一个表wyp,那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。   2、外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包括元数据都会被删除。   3、分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区,则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ,所有属于这个分区的数据都存放在这个目录中。   4、桶:对指定的列计算其hash,根据hash值切分数据,目的是为了并行,每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中,首先对id列的值计算hash,对应hash值为0和16的数据存储的HDFS目录为:/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为:/user/hive/warehouse/wyp/part-00002。   来看下Hive数据抽象结构图
统计学家
2019-04-10
2.3K0
【从零开始学SAS】1、创建时间序列SAS数据集
注:intnx函数的三个参数,第一个参数是指定等时间间隔,可以是day week monthquarter year等。第二个参数是指定参照时间。第三个参数是_n_k,用来调整开始观测指针,k为正整数时指针由参照时间向未来拨k期;k取负整数时反之。
统计学家
2019-04-10
2K0
【预备知识篇】Python3 MySQL 数据库连接
连接数据库前需确定已创建数据库,这里我们使用易百mysql教程中的yiibaidb示例数据库(下载地址:http://www.yiibai.com/downloads/yiibaidb.zip)。这里默认大家对MySQL基本操作已经了解,对MySQL不熟悉的朋友也建议先找教程入门学习一下。
统计学家
2019-04-10
7260
Python安装MySQL库详解(解决Microsoft Visual C++ 9.0 is required )
前面我们介绍的Python网络爬虫通常将抓取的数据存储至TXT或CSV文件,而当数据量增加之时,就需要将其存储至本地数据库了。Python访问数据库需要对应的接口程序,我们可以把接口程序理解为Python的一个模块,它提供了数据库客户端的接口供您访问。本文主要讲述Python操作MySQL数据库,通过调用MySQLdb扩展包实现。而在安装过程中会遇到各种各样的错误,这里给出安装MySQL库的详细步骤及错误的解决方法。
统计学家
2019-04-10
1.5K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档