luanhz

LV0
发表了文章

一文介绍机器学习中的三种特征选择方法

机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。也正因如此,特征工程在机器学习流程中占有着重要地位。广义的特征工程一般...

luanhz
发表了文章

Numpy中的广播机制,你确定正确理解了吗?

Numpy是Python中的一个基础的数据分析工具包,其提供了大量常用的数值计算功能,当然这些数值计算函数大多依赖于其核心的数据结构:ndarray,也就是N维...

luanhz
发表了文章

Pandas vs Spark:数据读取篇

按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对...

luanhz
发表了文章

EMPS:个人做数据分析处理的4重境界

自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的...

luanhz
发表了文章

从事大数据岗位,个人常用的Apache顶级项目

年前,个人换了大数据岗位,目前主要从事大数据分析和大数据算法相关工作。在前期数据分析师岗位的基础上,虽然只是增加了一个"大"字作为前缀,但所涉及的技术栈和工作理...

luanhz
发表了文章

数据岗面试:常用哪些Python第三方库?

当下,数据从业者大多需要掌握Python语言,更准确的说要学会使用Python提供的一些主流第三方库。考虑眼下正值金三银四的找工作最佳时机,现将个人曾经历过的一...

luanhz
发表了文章

还在苦恼特征工程?不妨试试这个库

从事机器学习相关岗位的同学都知道这样一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。在数据确定的情况下,那么特征工程就成了唯一可供发挥的关...

luanhz
发表了文章

还在当调参侠?推荐这三个超参优化库【含示例代码】

在传统的算法建模过程中,影响算法性能的一个重要环节、也可能是最为耗时和无趣的一项工作就是算法的调参,即超参数优化(Hyper-parameter Optimiz...

luanhz
发表了文章

Python用了这么久,居然没注意到这个骚操作函数

Python语言近年来的火热程度自不必说,这一方面得益于其庞大的第三方库的加持,使得其堪称万金油般的存在;另一方面也在于其简洁的语法和易用的函数。是的,Pyth...

luanhz
发表了文章

Pandas用了这么久,有觉得哪里不好的地方吗?

作为一名数据分析师,自己对Pandas有过系统的学习和应用实践,对其大部分功能甚至骚操作也称得上有所研究,前期也写过太多的Pandas应用技巧相关的文章。那么在...

luanhz
发表了文章

详解Pandas读取csv文件时2个有趣的参数设置

Pandas可能是广大Python数据分析师最为常用的库了,其提供了从数据读取、数据预处理到数据分析以及数据可视化的全流程操作。其中,在数据读取阶段,应用pd....

luanhz
发表了文章

一张图介绍机器学习中的集成学习算法

机器学习在当下早已成为一项热门的技术,在众多机器学习算法中,除去深度学习和强化学习等最新发展方向,若是谈及经典机器学习算法,那么集成学习算法无论是在效果上还是热...

luanhz
发表了文章

【综述】机器学习中的12类算法

最近在研究一些机器学习方面的论文,翻到了一篇较早的机器学习综述(2017年),虽然不是最新的研究现状,但考虑到经典机器学习算法其实发展并不像深度学习那么迅猛,所...

luanhz
发表了文章

自动化机器学习(AutoML)入门简介

近期在学习研究一些关于自动化机器学习方面的论文,本文作为该系列的第一篇文章,就AutoML的一些基本概念和现状进行简单分享,权当抱砖引玉。

luanhz
发表了文章

一文介绍Pandas中的9种数据访问方式

Pandas之于日常数据分析工作的重要地位不言而喻,而灵活的数据访问则是其中的一个重要环节。本文旨在讲清Pandas中的9种数据访问方式,包括范围读取和条件查询...

luanhz
发表了文章

SQL用了两年多,我最常用的2个小技巧

SQL是所有数据从业者必须打牢的基本功之一,扎实的SQL查询和适当的调优技巧是检验SQL能力的两大重要准则。个人曾经专门花费过好多时间用于提升SQL能力,期间也...

luanhz
发表了文章

SQL中的行转列和列转行

SQL是IT行业很多岗位都要求具备的一项能力,对于数据岗位而言更是如此,甚至说扎实的SQL基础也往往是入职这些岗位的必备技能。而在SQL面试中,一道出镜频率很高...

luanhz
发表了文章

Pandas中实现聚合统计,有几种方法?

Pandas是当前Python数据分析中最为重要的工具,其提供了功能强大且灵活多样的API,可以满足使用者在数据分析和处理中的多种选择和实现方式。今天本文以Pa...

luanhz
发表了文章

SQL、Pandas和Spark:如何实现数据透视表?

数据透视表是一个很重要的数据统计操作,最有代表性的当属在Excel中实现(甚至说提及Excel,个人认为其最有用的当属三类:好用的数学函数、便捷的图表制作以及强...

luanhz
发表了文章

推荐一个大佬开发的爬虫库,支持某宝、某乎等数十个主流平台解密登录

跟很多Python爱好者一样,笔者初学Python时也是从爬虫入门,并一度玩的不亦乐乎,源于其简单易上手的低门槛,也源于其所见即所得的即时获得感。与此同时,熟悉...

luanhz

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券