首页
学习
活动
专区
工具
TVP
发布

程序生活

专栏成员
447
文章
511288
阅读量
58
订阅数
【NLP基础】英文关键词抽取RAKE算法
RAKE英文全称为Rapid Automatic keyword extraction,中文称为快速自动关键字提取,是一种非常高效的关键字提取算法,可对单个文档进行操作,以实现对动态集合的应用,也可非常轻松地应用于新域,并且在处理多种类型的文档时也非常有效。
致Great
2022-09-23
8710
基于Trie 树实现简单的中文分词
中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需要事先分词,但标注效果往往比先分词后标注差),实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械分词和序列标注方法。
致Great
2022-05-13
8351
一种好用的树结构:Trie树
在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值。
致Great
2022-05-13
5090
实体识别(2) -命名实体识别实践CRF
CRF,英文全称为Conditional Random Field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。
致Great
2022-03-30
1.6K0
【论文笔记】文本版的Mixup数据增强算法:SSMix
论文标题:SSMix: Saliency-Based Span Mixup for Text Classification
致Great
2022-03-16
9510
【DCIC2022】科技金融子赛道验证码识别0.65+ baseline
在传统的文本识别方法中,任务分为3个步骤,即图像预处理、字符分割和字符识别。需要对特定场景进行建模,一旦场景变化就会失效。面对复杂的文字背景和场景变动,基于深度学习的方法具有更优的表现。
致Great
2022-03-11
4670
MMsegmentation教程 4: 自定义模型
假设您想增加一个新的叫 MyOptimizer 的优化器,它的参数分别为 a, b, 和 c。 您首先需要在一个文件里实现这个新的优化器,例如在 mmseg/core/optimizer/my_optimizer.py 里面:
致Great
2022-03-04
1.4K0
MMsegmentation教程 3:自定义数据流程
按照通常的惯例,我们使用 Dataset 和 DataLoader 做多线程的数据加载。Dataset 返回一个数据内容的字典,里面对应于模型前传方法的各个参数。 因为在语义分割中,输入的图像数据具有不同的大小,我们在 MMCV 里引入一个新的 DataContainer 类别去帮助收集和分发不同大小的输入数据。
致Great
2022-03-04
8480
MMsegmentation教程1:学习配置文件
我们整合了模块和继承设计到我们的配置里,这便于做很多实验。如果您想查看配置文件,您可以运行 python tools/print_config.py /PATH/TO/CONFIG 去查看完整的配置文件。您还可以传递参数 --cfg-options xxx.yyy=zzz 去查看更新的配置。
致Great
2022-03-04
2.7K0
时间序列入门时间序列入门
时间序列(英语:time series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理
致Great
2021-12-10
1.2K0
字节跳动安全Ai挑战赛-小样本赛道方案总结字节跳动安全Ai挑战赛-小样本赛道方案总结
在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。 给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。 数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。
致Great
2021-12-09
4600
深度学习优化器中的变形金刚:Ranger21
论文题目:RANGER21: A SYNERGISTIC DEEP LEARNING OPTIMIZER 论文链接:https://arxiv.org/pdf/2106.13731.pdf
致Great
2021-11-24
5820
CCF BDCI 剧本角色情感识别:多目标学习开源方案
剧本角色情感识别 比赛链接:https://www.datafountain.cn/competitions/518
致Great
2021-11-24
6560
Linear-chain CRF的推导
在我们想要标注book这个词的时候,是将其标注成名词noun或者动词verb是需要取决于当前词的前一个词的。在这种情境下,前一个词‘a’的词性一个限定词(determiner),所以我们选择将book标注成noun(名词)。对于这样的序列标记任务,以及更一般的结构化预测任务,Linear-chain CRF对标签之间的上下文依赖关系建模是有帮助的。
致Great
2021-11-24
1.1K0
模型融合与超参数优化
一般来说,通过融合多个不同的模型,可能提升机器学习的性能,这一方法在各种机器学习比赛中广泛应用, 常见的集成学习&模型融合方法包括:简单的Voting/Averaging(分别对于分类和回归问题)、Stacking、Boosting和Bagging。
致Great
2021-11-24
7870
图神经网络22-DGL实战:针对边分类任务的邻居采样训练方法
想要用DGL提供的邻居采样器做边分类,需要将其与 :class:~dgl.dataloading.pytorch.EdgeDataLoader 结合使用。 :class:~dgl.dataloading.pytorch.EdgeDataLoader 以小批次的形式对一组边进行迭代, 从而产生包含边小批次的子图以及供下文中模块使用的 块。
致Great
2021-07-14
1.4K0
图神经网络18-Watch Your Step: 通过图注意力学习节点嵌入
这篇文章的出发点是自动化选择网络表示学习的参数从而适应不同网络的需求。同时文章也证明了DeepWalk的工作其实等同于矩阵分解。
致Great
2021-07-08
4750
图神经网络12-分子指纹GCN:Neural FPs
论文:Convolutional Networks on Graphs for Learning Molecular Fingerprints 图卷积网络用于学习分子指纹 链接:http://arxiv.org/pdf/1509.09292.pdf 作者:David Duvenaud†, Dougal Maclaurin†, Jorge Aguilera-Iparraguirre (哈佛大学) 来源:NIPS 2015 代码:https://github.com/HIPS/neural-fingerprint
致Great
2021-05-11
1.1K0
LeetCode-中等 砖墙
你的面前有一堵矩形的、由 n 行砖块组成的砖墙。这些砖块高度相同(也就是一个单位高)但是宽度不同。每一行砖块的宽度之和应该相等。
致Great
2021-05-06
3070
图神经网络11-GCN落地的必读论文:GraphSAGE
论文:Inductive Representation Learning on Large Graphs 在大图上的归纳表示学习 链接:https://arxiv.org/abs/1706.02216 作者:Hamilton, William L. and Ying, Rex and Leskovec, Jure(斯坦福) 来源:NIPS 2017 代码:https://github.com/williamleif/graphsage-simple/
致Great
2021-04-27
2.6K1
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档