首页
学习
活动
专区
工具
TVP
发布

机器学习入门与实战

专栏作者
50
文章
102033
阅读量
21
订阅数
PyTorch +ResNet34实现 图像分类
ResNet在2015年被提出,在ImageNet比赛classification任务上获得第一名,因为它“简单与实用”并存,之后很多方法都建立在ResNet50或者ResNet101的基础上完成的,检测,分割,识别等领域里得到广泛的应用。它使用了一种连接方式叫做“shortcut connection”,顾名思义,shortcut就是“抄近道”的意思,下面是这个resnet的网络结构:
大数据技术与机器学习
2022-03-29
3.8K0
基于RoBERTa模型进行互联网新闻文本情感分析实现top1
随着网络新闻服务的飞速发展,网络上产生了大量的新闻文本信息,探索新闻文本背后的情绪表达,可以为政府和企业提供潜在价值。本题给定互联网新闻文本标题及新闻文本内容,要求判断新闻的情感极性(包括正面极性,中性极性和负面极性),是自然语言处理领域的典型分类任务。针对该任务,本文采用了RoBERTa模型,并改造了多个上层模型并通过投票融合的方式取得了较好的结果。在CCF BDCI的新闻情感分析的评测任务上,该方法在最终的B榜评测数据上,F1分值达到了0.81697最高分。
大数据技术与机器学习
2021-12-08
1.2K0
K-means算法的改进:K-means++
由于 K-means 算法的分类结果会受到初始点的选取而有所区别,因此有提出这种算法的改进: K-means++ 。
大数据技术与机器学习
2021-05-11
8670
汽车行业用户观点主题及情感分类 一等奖方案
最终预测的主题结果, 存放在data/test_predict_aspect_ensemble.txt中。
大数据技术与机器学习
2021-04-22
9200
tensorflow 2.0+ 预训练BERT模型的文本分类
多分类也称为单标签问题,例如,我们为每个样本分配一个标签。名称中的"多"表示我们处理至少 3 个类,对于 2 个类,我们可以使用术语二进制分类(binary classification)。另一方面,多标签任务更为一般,允许我们为每个样本分配多个标签,而不仅仅是一样本一标签。
大数据技术与机器学习
2021-04-22
2.3K0
《深度学习》中文版-周志华团队
这本书对各类读者都一定用处的,但我们是基于两个主要目标受众而写的。其中 一个目标受众是学习机器学习的大学生(本科或研究生),包括那些开始了职业生 涯的深度学习和人工智能研究者。另一个目标群体是没有机器学习或统计背景但 要迅速在他们的产品或平台开始使用深度学习的软件工程师。深度学习在许多软 件领域都已被证明是有用的,包括计算机视觉、语音和音频处理、自然语言处理、 机器人技术、生物信息学和化学、电子游戏、搜索引擎、网络广告和金融。
大数据技术与机器学习
2021-04-22
8480
Attention机制
既然采用固定的向量表示输入序列会限制模型性能,那能不能让解码器每次接收的输入都不一样呢,在每次输出时,让解码器有侧重的关注输入序列的不同部分(如:输出“machine”时,应更加关注“机”和“器”,输出“learning”时,应更加关注“学”和“习”),这就是Attention机制的思想。
大数据技术与机器学习
2021-04-22
1.1K0
Keras 模型中使用预训练的 gensim 词向量和可视化
在这篇 [在Keras模型中使用预训练的词向量](https://keras-cn.readthedocs.io/en/latest/blog/ word_embedding/) 讲述了如何利用预先训练好的 GloVe 模型,本文基本大同小异。只写一些不同的地方,更想的可以看这篇文章。
大数据技术与机器学习
2021-04-01
1.3K0
最全的机器学习中的优化算法介绍
在机器学习中,有很多的问题并没有解析形式的解,或者有解析形式的解但是计算量很大(譬如,超定问题的最小二乘解),对于此类问题,通常我们会选择采用一种迭代的优化方式进行求解。
大数据技术与机器学习
2021-04-01
8400
机器学习 - 模型离线评估
模型上线之前可以利用测试数据集进行离线评估,主要指标可以根据具体的问题类型可以有以下的方案。
大数据技术与机器学习
2020-04-22
9600
基于依存句法分析的关键短语抽取算法实战
由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具。目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。
大数据技术与机器学习
2020-03-26
1.4K0
基于IBM Model 1的词对齐与短语抽取Python实现
基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作,教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。
大数据技术与机器学习
2020-03-26
2.3K0
直觉理解LSTM和GRU
网上有很多对于LSTM以及GRU的介绍,主要从构造方面进行了进行了介绍。但是由于构造相对较复杂,而且涉及到的变量较多,往往不那么容易记住。下面我们从直觉的角度来对这两者进行介绍,方便理解和记忆。其中的更深刻的理论原理,可以参看相关的文章和论文。
大数据技术与机器学习
2020-03-26
4400
Python实现图片中英文信息识别
4)测试两张图片,denggao.jpg(中文信息)、test.jpg(英文信息)
大数据技术与机器学习
2020-03-13
2.7K0
NLP之keras中文文本分类系列算法封装,简单易用(超详细教程)
中文长文本分类、短句子分类、多标签分类、两句子相似度(Chinese Text Classification of Keras NLP, multi-label classify, or sentence classify, long or short),字词句向量嵌入层(embeddings)和网络层(graph)构建基类,FastText,TextCNN,CharCNN,TextRNN, RCNN, DCNN, DPCNN, VDCNN, CRNN, Bert, Xlnet, Albert, Attention, DeepMoji, HAN, 胶囊网络-CapsuleNet, Transformer-encode, Seq2seq, SWEM
大数据技术与机器学习
2020-03-12
3.2K0
darknet图像定位+tornado实现票据识别API,识别率达到95%以上
此项目用于对中国购车发票进行内容识别,目前完成的是身份证,vin,发动机号,价格的识别提供了展示的demo页,以及提供了传入文件,路径,base64码的多种方式调用的api,返回识别出来的json数据。
大数据技术与机器学习
2020-02-24
7940
BERT中文实战:文本相似度计算与文本分类
谷歌提供了以下几个版本的BERT模型,每个模型的参数都做了简单的说明,中文的预训练模型在11月3日的时候提供了,这里我们只需要用到中文的版本
大数据技术与机器学习
2019-12-19
4.8K0
Attention注意力机制
在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。
大数据技术与机器学习
2019-12-11
1.4K0
seq2seq模型
在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如:
大数据技术与机器学习
2019-12-05
6880
textRNN/textCNN文本分类
textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。
大数据技术与机器学习
2019-12-05
2.1K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档