首页
学习
活动
专区
工具
TVP
发布

算法研习社

专栏作者
31
文章
37121
阅读量
14
订阅数
Python加速运行技巧
Python 是一种脚本语言,相比 C/C++ 这样的编译语言,在效率和性能方面存在一些不足。但是,有很多时候,Python 的效率并没有想象中的那么夸张。本文对一些 Python 代码加速运行的技巧进行整理。
小萌哥
2020-07-24
1.2K0
特征工程的黑色艺术
想象一下,当今社会备受瞩目的人工智能和数据挖掘算法工程师每天大部分时间都在做什么呢?是花大量时间手推公式,还是思考各种trick对算法调参,还是一遍遍清洗数据和加工特征?实际上,大部分的数据挖掘/算法工程师在日常的工作流程中,80%以上的时间用于研究特征工程,而他们在算法设计和模型优化上分配的时间不到20%。特征工程为何如此重要,以至于数据挖掘/算法工程师甘愿把如此之多时间都花在这上面呢?
小萌哥
2020-07-21
7760
算法工程师-SQL进阶:温柔的陷阱-NULL
我们以往遇到的编程语言基本都是基于二值逻辑的,即逻辑真值只有true和false两个。而 SQL 语言则采用一种特殊的逻辑体系——三值逻辑,逻辑真值除了true和false,还有第三个值unknow,即 “不确定”。三值逻辑经常会给数据分析带来一些意想不到的难题,即使是资深的工程师,有时候也很难避免。
小萌哥
2020-07-21
7660
算法工程师-SQL进阶:神奇的自连接与子查询
自连接与子查询是SQL中非常重要的两项技术,自连接是针对相同的表的联结方法,是SQL语言面向集合编程思想的集中体现,而子查询有很多变式,关联子查询技术是在实际中进行行与行之间的比较时非常重要的方法,特别是与自连接相结合的自关联子查询。一旦熟练掌握以上两种技术,实际中很多问题便能迎刃而解。
小萌哥
2020-07-21
3.1K0
算法工程师-SQL进阶:集合之间的较量
集合在数据库领域表示记录的集合。SQL是一门面向集合的语言,四则运算里的和、差、积已经加入到标准SQL,但由于其标准化进程比较缓慢,一些集合运算在主流的数据库如MySQL、HiveSQL中还未实现。
小萌哥
2020-07-21
1.8K0
算法工程师-SQL进阶:强大的Case表达式
相信大家对SQL都非常熟悉了,可能有些小伙伴会有疑问,算法工程师不是跑模型的吗?还需要学SQL?其实,很有必要!原因大概有以下几点吧:
小萌哥
2020-07-21
1.9K0
你的模型需要解释(二)
广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的“宇宙的目的是什么”这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。
小萌哥
2020-07-21
6950
协同过滤推荐算法
相信大家对推荐系统已经很熟悉了,它通过分析用户的历史行为,挖掘用户的兴趣爱好,预测并推荐给用户其接下来有可能感兴趣的事物,例如商品推荐、音乐推荐、新闻以及最近很火的短视频推荐等等。
小萌哥
2020-07-21
1.3K0
Python实现6种排序算法,快排只有6行?
通过实现 6 种经典的排序算法,尽展 Python 的简而美~ 快速排序 归并排序 堆排序 插入排序 冒泡排序 选择排序 快速排序 def quick_sort(arr): if len(arr) < 2: return arr[:] left = quick_sort([i for i in arr[1:] if i <= arr[0]]) right = quick_sort([i for i in arr[1:] if i > arr[0]]) ret
小萌哥
2020-07-21
5080
主成分分析(PCA)
文章作者:林-光 内容来源:https://zhuanlan.zhihu.com/p/36318506?utm_source=wechat_session&utm_medium=social&utm_
小萌哥
2020-07-21
4400
探索性数据分析,Seaborn必会的几种图
探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据在尽量少的先验假设下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。EDA强调让数据自身“说话”,通过EDA可以最真实、最直接的观察到数据的结构特征,发现数据变量之间的联系与区别,它是机器学习工作者挖掘关键特征的重要手段。
小萌哥
2020-07-21
3.2K0
推荐系统冷启动
冷启动是推荐系统的重要挑战之一。那么,什么是冷启动?如何设计一个好的冷启动方案?本文将主要从以下7个方面给大家讲清楚这些问题:
小萌哥
2020-07-21
1.2K0
特征工程(下 )- 特征评估
作者会在本文中结合自己在视频推荐方面的工作经验,着重从工程实现方面,讲述如何对特征进行评估的问题。下文中,我们首先会厘清“特征评估”的概念,然后讲述特征评估的标准,最后是问题的反向排查。
小萌哥
2020-07-21
1.3K0
特征工程(中)- 特征表达
从一个完整的机器学习任务来看,在选择完特征之后,特征表达的任务就是要将一个个的样本抽象成数值向量,供机器学习模型使用。因此,特征表达就要兼顾特征属性和模型需求这两个方面。
小萌哥
2020-07-21
6130
特征工程(上)- 特征选择
构建特征是一个很大的工程,总体来讲包括“特征选择”、“特征表达”和“特征评估”3个部分。我们也按这3个部分,并结合自己的具体实践,用3篇文章来和大家聊一下特征工程的相关问题。
小萌哥
2020-07-21
8150
盘点 | Python自带的那些数据集
在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供的函数load_dataset("数据集名称")来获取线上相应的数据,返回给我们的是一个pandas的DataFrame对象。
小萌哥
2020-07-21
2.9K0
Python面试必刷题系列(2)
python提供了将变量或值从一种类型转换成另一种类型的内置函数。比如int函数能够将符合数学格式数字型字符串转换成整数。否则,返回错误信息。
小萌哥
2020-07-21
4510
海量数据面试题总结(2)-BitMap
所谓BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素,由于BitMap使用了bit位来存储数据,因此可以大大节省存储空间。
小萌哥
2020-07-20
9900
海量数据面试题总结(1)-Hash映射+Hash统计+归并排序
首先考虑是否需要将大文件分成小文件,针对数据太大,内存受限,只能是将大文件化成小文件(取模映射);
小萌哥
2020-07-20
5760
机器学习必刷题-手撕推导篇(2):BP算法推导
本文是【机器学习必刷题-手撕推导篇】第2篇文章,主要介绍BP反向传播算法原理,纯纯的干货,目的是面试刷题能够快速回忆,算法详细介绍参考文末链接。
小萌哥
2020-07-20
7790
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档