Bo_hemian

LV0
发表了文章

亚马逊DRKG使用体验

基于文章:探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG,记录了该项目的实际部署与探索过程,供参考。

Bo_hemian
发表了文章

机器学习中的异常检测手段

总体来讲,异常检测问题可以概括为两类:一是对结构化数据的异常检测,二是对非结构化数据的异常检测。

Bo_hemian
发表了文章

/usr/bin/python: can't decompress data; zlib not available 的异常处理

使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器,运行python spark脚本时报错如下错误:

Bo_hemian
发表了文章

排序算法:快速排序解析及Python实现

假设数组的长度为0~7这8个数字,且乱序排序,并且每次取正中间的值作为基线值 basevalue 。那么可结合二分查找的思想可知递归调用 logn +1 次,即...

Bo_hemian
发表了文章

FM算法解析及Python实现

1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高...

Bo_hemian
发表了文章

模型性能提升操作

考虑特征重要度的因素。遵循一个原则:特征重要度越高,对这一特征下的空缺值容忍程度越低。

Bo_hemian
发表了文章

pandas:由列层次化索引延伸的一些思考

用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引。具体代码如下:

Bo_hemian
发表了文章

pandas:对字符串类型做差分比较

等价 DataFrame.fillna(method='bfill'),也等价于 ’!= ‘,但 ’!=‘耗时较慢,所以不推荐使用。

Bo_hemian
发表了文章

FFM算法解析及Python实现

通过引入field的概念,FFM把相同性质的特征归于同一个field,相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型。

Bo_hemian
发表了文章

pandas:apply和transform方法的性能比较

都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。

Bo_hemian
发表了文章

机器学习模型的特征监控方案设计

KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS-检...

Bo_hemian
发表了文章

BERT总结:最先进的NLP预训练技术

BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文:...

Bo_hemian
发表了文章

Recommending items to more than a billion people(面向十亿级用户的推荐系统)

Web上数据的增长使得在完整的数据集上使用许多机器学习算法变得更加困难。特别是对于个性化推荐问题,数据采样通常不是一种选择,需要对分布式算法设计进行创新,以便我...

Bo_hemian
发表了文章

pandas:字段值插入数据表第一行的解决办法

在对课程表进行数据抽取时,由于课表结构的原因,需要在原始表字段名作为第一行数据,并对原始字段名进行替换。

Bo_hemian
发表了文章

pandas:解决groupby().apply()方法打印两次

对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作

Bo_hemian
发表了文章

从RNN到BERT

美国:[1,0,0,0,…,0] 中国:[0,1,0,0,…,0] 印度:[0,0,1,0,…,0]

Bo_hemian
发表了文章

为你的机器学习模型创建API服务

当调包侠们训练好一个模型后,下一步要做的就是与业务开发组同学们进行代码对接,以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战,例如很常见...

Bo_hemian
发表了文章

初识TPOT:一个基于Python的自动化机器学习开发工具

本文介绍一个基于遗传算法的快速模型选择及调参的方法,TPOT:一种基于Python的自动机器学习开发工具。项目源代码位于:https://github.com/...

Bo_hemian
发表了文章

词嵌入技术解析(二)

霍夫曼编码(Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。

Bo_hemian
发表了文章

词嵌入技术解析(一)

在讨论词嵌入之前,先要理解词向量的表达形式,注意,这里的词向量不是指Word2Vec。关于词向量的表达,现阶段采用的主要有One hot representat...

Bo_hemian

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券