首页
学习
活动
专区
工具
TVP
发布

机器学习AI算法工程

机器学习,深度学习,大数据 ,公众号:datayx
专栏成员
1348
文章
2598636
阅读量
335
订阅数
神了,用 Python 预测世界杯决赛,发现准确率还挺高
通过对2018年之前世界杯各个国家球队的表现以及比分结果进行数据分析,并结合以往各个球队在历届世界杯中的表现,通过机器学习算法建立模型,并对其进行评价以及模型优化之后,进行模拟2022年卡塔尔世界杯的冠军球队的归属。
机器学习AI算法工程
2022-12-13
1.1K0
训练集和测试集的分布差距太大有好的处理方法吗?
1.对数据集进行划分,分为训练集和测试集两部分; 2.对模型在测试集上面的泛化性能进行度量; 3.基于测试集上面的泛化性能,依据假设检验来推广到全部数据集上面的泛化性能。
机器学习AI算法工程
2022-12-13
3.8K0
GPT2中文新闻标题生成
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 项目描述 本项目是一个带有超级详细中文注释的基于GPT2模型的新闻标题生成项目。 本项目参考了GPT2-Chinese、GPT2-chitchat、CDial-GPT、GPT2等多个GPT2开源项目,并根据自己的理解,将代码进行重构,添加详细注释,希望可以帮助到有需要的人。 本项目使用HuggingFace的transformers实现GPT2模型代码编写、训练及测试。 本项目通过Flask框架搭建了一个Web服务,将新
机器学习AI算法工程
2022-08-26
1.5K0
使用Bert完成实体之间关系抽取
Source Text: 《在夏天冬眠》是容祖儿演唱的一首歌曲,收录于专辑《独照》中
机器学习AI算法工程
2022-02-28
1.7K0
一个简单的现代化公司域名使用规律预测及生成工具
什么叫 "现代化" 公司? 不成熟定义,就是公司整体 IT 基础设施和架构设计完善,会使用微服务、协同开发、自动化测试、自动化打包发布、自动化部署、自动化日志收集和自动化运维监控等多项 "现代化" 的技术解决高并发等较大体量业务问题的公司; 这些公司或组织团体一般有较多业务,以互联网领域、近些年新成立的公司居多,域名命名及分配使用比较规范。 什么是域名预测? 简答来讲就是基于 "现代化" 公司比较规范的域名使用规律已经使用的新技术架构,在已知某个域名后,预测该域名可能有哪些变体形式的域名。 举一个简单的例
机器学习AI算法工程
2022-02-28
4440
efficientdet-pytorch训练自己的数据集
训练所需的pth可以在百度网盘下载。 包括Efficientdet-d0到d7所有权重。 链接: https://pan.baidu.com/s/1Kvv526YYSDJEf9BzWfIb3Q 提取码: f9g3
机器学习AI算法工程
2021-11-10
1.1K0
基于tensorflow 1.x 的bert系列预训练模型工具
内置有自定义的Trainer,像pytorch一样使用tensorflow1.14,具体使用下边会介绍。
机器学习AI算法工程
2021-10-14
1K0
基于Keras的多标签图像分类
本篇记录一下自己项目中用到的keras相关的部分。由于本项目既有涉及multi-class(多类分类),也有涉及multi-label(多标记分类)的部分,multi-class分类网上已经很多相关的文章了。这里就说一说multi-label的搭建网络的部分。之后如果有时间的时候,再说一说cross validation(交叉验证)和在epoch的callback函数中处理一些多标签度量metric的问题。
机器学习AI算法工程
2021-09-02
1.7K0
YOLOv5:道路损伤检测
GRDDC'2020 数据集是从印度、日本和捷克收集的道路图像。包括三个部分:Train, Test1, Test2。训练集包括带有 PASCAL VOC 格式 XML 文件标注的道路图像。在给参赛者的数据Test1 和 Test2 中是没有标注。train则包含标注。
机器学习AI算法工程
2021-07-14
1.9K0
fastNLP工具包, 快速实现序列标注模型
fastNLP是一款轻量级的自然语言处理(NLP)工具包,目标是快速实现NLP任务以及构建复杂模型。
机器学习AI算法工程
2021-04-01
1.4K0
文本相似度,文本匹配模型归纳(附代码)
本文将会整合近几年来比较热门的一些文本匹配模型,并以QA_corpus为测试基准,分别进行测试,代码均采用tensorflow进行实现,每个模型均会有理论讲解与代码实现。
机器学习AI算法工程
2021-01-27
2.1K0
UNet实现文档印章消除
一个分割网络——Unet,Unet借鉴了FCN网络,其网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息(也即像素间的关系);后面部分网络则是与前面基本对称,使用的是3x3卷积和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。
机器学习AI算法工程
2020-11-10
2.1K0
使用resnet, inception3进行fine-tune出现训练集准确率很高但验证集很低的问题
最近用keras跑基于resnet50,inception3的一些迁移学习的实验,遇到一些问题。通过查看github和博客发现是由于BN层导致的,国外已经有人总结并提了一个PR(虽然并没有被merge到Keras官方库中),并写了一篇博客,也看到知乎有人翻译了一遍:Keras的BN你真的冻结对了吗
机器学习AI算法工程
2020-10-19
2.3K0
短实体,长句实体抽取
“半指针-半标注”方法实体的抽取器,基于苏神的三元组抽取方法改造,这里取消了三元组抽取模型中对s的抽取,直接抽取实体并做分类(相当于直接抽取p和o)。改造后的实体抽取方法不仅可以运用于短实体的抽取,也可以运用到长句实体的抽取。
机器学习AI算法工程
2020-09-14
1.8K0
金融文本信息情感分析(负面及主体判定)
给定一条金融信息X以及对应的实体集合S, 我们首先要判断该金融信息是否包含负面信息;如果包含负面信息,需要找出负面信息的主体E。
机器学习AI算法工程
2020-07-16
1.9K0
基于Bert-NER构建特定领域中文信息抽取框架
本文通过多个实验的对比发现,结合Bert-NER和特定的分词、词性标注等中文语言处理方式,获得更高的准确率和更好的效果,能在特定领域的中文信息抽取任务中取得优异的效果。
机器学习AI算法工程
2020-03-26
2.6K0
如何识别“答非所问”?使用gensim进行文本相似度计算
在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。
机器学习AI算法工程
2019-10-28
2K0
大规模中文自然语言处理语料(百科,问答、新闻,翻译)
中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上,普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
机器学习AI算法工程
2019-10-28
3.2K0
前海征信大数据算法:风险概率预测
感谢大家过去一年的关注与支持,有更好的建议或需求欢迎回复小编。新的一年你们将是人工智能、机器学习领域内的主角,越努力越幸运!
机器学习AI算法工程
2019-10-28
8380
规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归 ,也可以用多项式回归 。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?
机器学习AI算法工程
2018-03-12
1.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档