首页
学习
活动
专区
工具
TVP
发布

machine_learning

专栏成员
32
文章
44593
阅读量
15
订阅数
基于docker的深度学习开发环境
安装docker (release>=19.02) 安装NVIDIA Container Toolkit
Bo_hemian
2021-08-05
7110
亚马逊DRKG使用体验
基于文章:探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG,记录了该项目的实际部署与探索过程,供参考。
Bo_hemian
2020-09-11
1.3K0
机器学习中的异常检测手段
总体来讲,异常检测问题可以概括为两类:一是对结构化数据的异常检测,二是对非结构化数据的异常检测。
Bo_hemian
2020-09-10
9290
/usr/bin/python: can't decompress data; zlib not available 的异常处理
使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器,运行python spark脚本时报错如下错误:
Bo_hemian
2020-09-10
1.4K0
排序算法:快速排序解析及Python实现
假设数组的长度为0~7这8个数字,且乱序排序,并且每次取正中间的值作为基线值 basevalue 。那么可结合二分查找的思想可知递归调用 logn +1 次,即树深为 logn+1 ,如下图所示:
Bo_hemian
2020-09-09
4990
FM算法解析及Python实现
1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。
Bo_hemian
2020-09-09
1.3K0
模型性能提升操作
考虑特征重要度的因素。遵循一个原则:特征重要度越高,对这一特征下的空缺值容忍程度越低。
Bo_hemian
2020-09-09
8130
pandas:由列层次化索引延伸的一些思考
用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引。具体代码如下:
Bo_hemian
2020-09-09
8650
pandas:对字符串类型做差分比较
等价 DataFrame.fillna(method='bfill'),也等价于 ’!= ‘,但 ’!=‘耗时较慢,所以不推荐使用。
Bo_hemian
2020-09-09
1.1K0
FFM算法解析及Python实现
通过引入field的概念,FFM把相同性质的特征归于同一个field,相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型。
Bo_hemian
2020-09-09
8870
pandas:apply和transform方法的性能比较
都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。
Bo_hemian
2020-09-09
1.3K0
机器学习模型的特征监控方案设计
KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS-检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS-检验作为非参数检验,在分析两组数据之间是否存在异常时相当常用。
Bo_hemian
2020-09-09
2.2K0
BERT总结:最先进的NLP预训练技术
BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。它通过在各种各样的NLP任务中呈现最先进的结果,包括问答(SQuAD v1.1)、自然语言推理(MNLI)等,在机器学习社区中引起了轰动。
Bo_hemian
2020-09-09
2.1K0
Recommending items to more than a billion people(面向十亿级用户的推荐系统)
Web上数据的增长使得在完整的数据集上使用许多机器学习算法变得更加困难。特别是对于个性化推荐问题,数据采样通常不是一种选择,需要对分布式算法设计进行创新,以便我们能够扩展到这些不断增长的数据集。
Bo_hemian
2020-09-09
6460
pandas:字段值插入数据表第一行的解决办法
在对课程表进行数据抽取时,由于课表结构的原因,需要在原始表字段名作为第一行数据,并对原始字段名进行替换。
Bo_hemian
2020-09-09
2.4K0
pandas:解决groupby().apply()方法打印两次
对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作
Bo_hemian
2020-09-09
9920
从RNN到BERT
美国:[1,0,0,0,…,0] 中国:[0,1,0,0,…,0] 印度:[0,0,1,0,…,0]
Bo_hemian
2020-09-09
8610
为你的机器学习模型创建API服务
当调包侠们训练好一个模型后,下一步要做的就是与业务开发组同学们进行代码对接,以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战,例如很常见的是调包侠们用Python训练模型,开发同学用Java写业务代码,这时候,Api就作为一种解决方案被使用。
Bo_hemian
2020-09-09
2.4K0
初识TPOT:一个基于Python的自动化机器学习开发工具
本文介绍一个基于遗传算法的快速模型选择及调参的方法,TPOT:一种基于Python的自动机器学习开发工具。项目源代码位于:https://github.com/EpistasisLab/tpot
Bo_hemian
2020-09-09
1.1K0
词嵌入技术解析(二)
霍夫曼编码(Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。
Bo_hemian
2020-09-09
5570
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档