机器学习入门与实战

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域里得到广泛的应用。它使用了一种连接方式叫做“shortcut connection”，顾名思义，shortcut就是“抄近道”的意思，下面是这个resnet的网络结构：

PyTorch +ResNet34实现 图像分类

随着网络新闻服务的飞速发展，网络上产生了大量的新闻文本信息，探索新闻文本背后的情绪表达，可以为政府和企业提供潜在价值。本题给定互联网新闻文本标题及新闻文本内容，要求判断新闻的情感极性（包括正面极性，中性极性和负面极性），是自然语言处理领域的典型分类任务。针对该任务，本文采用了RoBERTa模型，并改造了多个上层模型并通过投票融合的方式取得了较好的结果。在CCF BDCI的新闻情感分析的评测任务上，该方法在最终的B榜评测数据上，F1分值达到了0.81697最高分。

基于RoBERTa模型进行互联网新闻文本情感分析实现top1

由于 K-means 算法的分类结果会受到初始点的选取而有所区别，因此有提出这种算法的改进: K-means++ 。

K-means算法的改进：K-means++

最终预测的主题结果, 存放在data/test_predict_aspect_ensemble.txt中。

汽车行业用户观点主题及情感分类 一等奖方案

多分类也称为单标签问题，例如，我们为每个样本分配一个标签。名称中的"多"表示我们处理至少 3 个类，对于 2 个类，我们可以使用术语二进制分类(binary classification)。另一方面，多标签任务更为一般，允许我们为每个样本分配多个标签，而不仅仅是一样本一标签。

tensorflow 2.0+ 预训练BERT模型的文本分类

这本书对各类读者都一定用处的，但我们是基于两个主要目标受众而写的。其中 一个目标受众是学习机器学习的大学生(本科或研究生)，包括那些开始了职业生 涯的深度学习和人工智能研究者。另一个目标群体是没有机器学习或统计背景但 要迅速在他们的产品或平台开始使用深度学习的软件工程师。深度学习在许多软 件领域都已被证明是有用的，包括计算机视觉、语音和音频处理、自然语言处理、 机器人技术、生物信息学和化学、电子游戏、搜索引擎、网络广告和金融。

《深度学习》中文版-周志华团队

既然采用固定的向量表示输入序列会限制模型性能，那能不能让解码器每次接收的输入都不一样呢，在每次输出时，让解码器有侧重的关注输入序列的不同部分（如：输出“machine”时，应更加关注“机”和“器”，输出“learning”时，应更加关注“学”和“习”），这就是Attention机制的思想。

Attention机制

在这篇 [在Keras模型中使用预训练的词向量](https://keras-cn.readthedocs.io/en/latest/blog/ word_embedding/) 讲述了如何利用预先训练好的 GloVe 模型，本文基本大同小异。只写一些不同的地方，更想的可以看这篇文章。

Keras 模型中使用预训练的 gensim 词向量和可视化

在机器学习中，有很多的问题并没有解析形式的解，或者有解析形式的解但是计算量很大（譬如，超定问题的最小二乘解），对于此类问题，通常我们会选择采用一种迭代的优化方式进行求解。

最全的机器学习中的优化算法介绍

模型上线之前可以利用测试数据集进行离线评估，主要指标可以根据具体的问题类型可以有以下的方案。

机器学习 - 模型离线评估

由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据；所以想到采用无监督的关键短语抽取算法折中去抽取一些实体，于是调研了一波关键短语抽取算法和工具。目前无监督关键短语抽取算法和关键词抽取算法差不多：主要是TFIDF，Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。

基于依存句法分析的关键短语抽取算法实战

基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作，教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。

基于IBM Model 1的词对齐与短语抽取Python实现


网上有很多对于LSTM以及GRU的介绍，主要从构造方面进行了进行了介绍。但是由于构造相对较复杂，而且涉及到的变量较多，往往不那么容易记住。下面我们从直觉的角度来对这两者进行介绍，方便理解和记忆。其中的更深刻的理论原理，可以参看相关的文章和论文。

直觉理解LSTM和GRU

4）测试两张图片，denggao.jpg（中文信息）、test.jpg（英文信息）

Python实现图片中英文信息识别

中文长文本分类、短句子分类、多标签分类、两句子相似度（Chinese Text Classification of Keras NLP, multi-label classify, or sentence classify, long or short），字词句向量嵌入层（embeddings）和网络层（graph）构建基类，FastText，TextCNN，CharCNN，TextRNN, RCNN, DCNN, DPCNN, VDCNN, CRNN, Bert, Xlnet, Albert, Attention, DeepMoji, HAN, 胶囊网络-CapsuleNet, Transformer-encode, Seq2seq, SWEM


NLP之keras中文文本分类系列算法封装，简单易用(超详细教程)

此项目用于对中国购车发票进行内容识别,目前完成的是身份证,vin,发动机号,价格的识别提供了展示的demo页,以及提供了传入文件,路径,base64码的多种方式调用的api,返回识别出来的json数据。

darknet图像定位+tornado实现票据识别API,识别率达到95%以上

谷歌提供了以下几个版本的BERT模型，每个模型的参数都做了简单的说明，中文的预训练模型在11月3日的时候提供了，这里我们只需要用到中文的版本

BERT中文实战：文本相似度计算与文本分类

在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。

Attention注意力机制

在⾃然语⾔处理的很多应⽤中，输⼊和输出都可以是不定⻓序列。以机器翻译为例，输⼊可以是⼀段不定⻓的英语⽂本序列，输出可以是⼀段不定⻓的法语⽂本序列，例如：

seq2seq模型

textRNN指的是利用RNN循环神经网络解决文本分类问题，文本分类是自然语言处理的一个基本任务，试图推断出给定文本(句子、文档等)的标签或标签集合。

textRNN/textCNN文本分类

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了机器学习入门与实战专栏，为你提供了机器学习入门与实战的相关文章，致力于帮助开发者快速成长与发展。

机器学习入门与实战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐