machine_learning

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

安装docker (release>=19.02)
安装NVIDIA Container Toolkit 

基于docker的深度学习开发环境

基于文章：探索「老药新用」最短路径：亚马逊AI Lab开源大规模药物重定位知识图谱DRKG，记录了该项目的实际部署与探索过程，供参考。

亚马逊DRKG使用体验

总体来讲，异常检测问题可以概括为两类：一是对结构化数据的异常检测，二是对非结构化数据的异常检测。

机器学习中的异常检测手段

使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器，运行python spark脚本时报错如下错误：

/usr/bin/python: can't decompress data; zlib not available 的异常处理

假设数组的长度为0~7这8个数字，且乱序排序，并且每次取正中间的值作为基线值 basevalue 。那么可结合二分查找的思想可知递归调用 logn +1 次，即树深为 logn+1 ，如下图所示：

排序算法：快速排序解析及Python实现

1、特征组合是许多机器学习建模过程中遇到的问题，如果对特征直接建模，很有可能会忽略掉特征与特征之间的关联信息，因此，可以通过构建新的交叉特征这一特征组合方式提高模型的效果。

FM算法解析及Python实现

考虑特征重要度的因素。遵循一个原则：特征重要度越高，对这一特征下的空缺值容忍程度越低。

模型性能提升操作

用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题：产生了列方向上的两级索引，且需要删除一级索引。具体代码如下：

pandas：由列层次化索引延伸的一些思考

等价 DataFrame.fillna(method='bfill')，也等价于 ’！= ‘，但 ’！=‘耗时较慢，所以不推荐使用。

pandas：对字符串类型做差分比较

通过引入field的概念，FFM把相同性质的特征归于同一个field，相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型。

FFM算法解析及Python实现

都能针对dataframe完成特征的计算，并且常常与groupby()方法一起使用。

pandas：apply和transform方法的性能比较

KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况，可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时，KS-检验的灵敏度没有相应的检验来的高。在样本量比较小的时候，KS-检验作为非参数检验，在分析两组数据之间是否存在异常时相当常用。

机器学习模型的特征监控方案设计

BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。它通过在各种各样的NLP任务中呈现最先进的结果，包括问答(SQuAD v1.1)、自然语言推理(MNLI)等，在机器学习社区中引起了轰动。

BERT总结：最先进的NLP预训练技术

Web上数据的增长使得在完整的数据集上使用许多机器学习算法变得更加困难。特别是对于个性化推荐问题，数据采样通常不是一种选择，需要对分布式算法设计进行创新，以便我们能够扩展到这些不断增长的数据集。

Recommending items to more than a billion people（面向十亿级用户的推荐系统）

在对课程表进行数据抽取时，由于课表结构的原因，需要在原始表字段名作为第一行数据，并对原始字段名进行替换。

pandas：字段值插入数据表第一行的解决办法

对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作

pandas：解决groupby().apply()方法打印两次

美国：[1,0,0,0,…,0]
中国：[0,1,0,0,…,0]
印度：[0,0,1,0,…,0]

从RNN到BERT

当调包侠们训练好一个模型后，下一步要做的就是与业务开发组同学们进行代码对接，以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战，例如很常见的是调包侠们用Python训练模型，开发同学用Java写业务代码，这时候，Api就作为一种解决方案被使用。

为你的机器学习模型创建API服务

本文介绍一个基于遗传算法的快速模型选择及调参的方法，TPOT：一种基于Python的自动机器学习开发工具。项目源代码位于：https://github.com/EpistasisLab/tpot

初识TPOT：一个基于Python的自动化机器学习开发工具

霍夫曼编码（Huffman Coding），又译为哈夫曼编码、赫夫曼编码，是一种用于无损数据压缩的熵编码（权编码）算法。

词嵌入技术解析（二）

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了machine_learning专栏，为你提供了machine_learning的相关文章，致力于帮助开发者快速成长与发展。

machine_learning

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐