机器学习之旅

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

说到文本相似性可以有很多种划分的方式，从文章的长短可以分别处理，从计算的方式可以分为深度学习和机器学习方式，从实现目的上可以分为去重和匹配...

文本相似性的总结

在自然语言处理领域，我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本，往往几个关键词就可以代表整个文本的主题思想。同时，在很多推荐系统中，由于无法直接就整体文本进行利用，往往会现对文本进行汇总，常用的方法就是embedding或者关键词抽取，关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。让我们看下有哪些快速上手可用的方法。

快速上手关键词抽取的算法

mask+attention，mask的word结合全部其他encoder word的信息

Bert需要理解的一些内容

本文主要是为了讲解xDeepFM的框架，及如何用tensorflow去实现主干部分，如果需要直接拆箱可用，可以参考:xDeepFM，我的部分代码也来自于其中，这边主要是和大家一起对比着看下，xDeepFM到底做了哪些事情？我的工程实现代码等待我司项目上线稳定后开源。

xDeepFM架构理解及实现

本系列为深入篇，尽可能完善专题知识，并不会所有的都会出现在面试中，更多内容，详见：Reflection_Summary，欢迎交流。

集成学习需要理解的一些内容

LR需要理解的一些内容

最近在看AutoML，业界在 automl 上的进展还是很不错的，个人比较看好这个方向，所以做了一些了解：

Auto Machine Learning初探

做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况，我发现了两个现象：1.有很多定制化的需求是极度高频反复重写的；2.有很多功能之前写过，可能因为稍许复杂又忘了，再用的时候又要去Google。所以，拉着同组的一个实习生，一起维护了PyTls的这个项目，为的就是那句"life is short, we need python"。

Python自用工具包PyTls

现在由于业务需求，又新增了一个语音对话过程中是否存在手机号交换行为意图的识别，所以更新了一个版本YMMNlpUtils==0.1.1。实际拿来用的数据比想象中的要更加混乱，主要是由于我们的用户方言很重且经过了一轮语音转文本的信息转译，所以不少信息丢失，比如：

语音转译文本后的意图识别(YMMNlpUtils)

本期围绕jieba讲一个我遇到的实际问题，在同一个服务里，存在两个不同接口A和B，都用到了jieba分词，区别在于两者需要调用不同的词库，巧合中，存在以下情况：

Python踩坑指南（第二季）

最近在python开发的过程中，发现了一些比较有意思的问题，确实让自己在开发过程中被恶心了一把，所以开了这个连续的更新博文，之后会持续的按第一第二第三这种版本下去，更新一些比较有意思的python代码问题。

Python踩坑指南（第一季）

最近在做一个关于中文大段文本中的手机号码识别，由于属于对抗性的一个文本，发现传统的手机号码识别方法，比如正则匹配并不是很适用。

中文语境下的手机号识别

给大家的建议就是，如果大家赶时间求稳定适应范围需要非常广的时候，目前来说jieba是非常好的选择，如果说在面临一些精细化领域的特殊需求的时候，可以用PKUseg进行一波尝试，有意外惊喜。

PKUseg在货运领域的评测

最近发现pandas的一个问题，记录一下：
 有一组数据（test.txt）如下：

pandas数据读取的问题记录

实在是太忙了，抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的，协助大家可以自行构造一下。

YoutubeNet的数据答疑

第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本：

GolVe向量化做文本分类向量化文本分类

很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流，梳理如下：

Google团队在DNN的实际应用方式的整理

最近在做一些nlp相关的项目，在涉及到Stanford CoreNLP工具包处理中文分词的时候，发现耗时问题很严重：

Stanford Word Segmenter问题整理

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差

理论：决策树及衍射指标

场景1：如果在电商平台中入驻的商家想要卖出更多的东西就需要电商平台帮住通过push、短信甚至邮件的方式引流，提醒存在潜在购买可能的用户“来来来这家店不错”，通过这种方式的收费其实是空手套白狼，投入产出比巨高那如何寻找到合适的用户推荐给合适的商家呢？

总结：为什么要选择机器学习

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了机器学习之旅专栏，为你提供了机器学习之旅的相关文章，致力于帮助开发者快速成长与发展。

机器学习之旅

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐