首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pyhanlp自然语言处理中的新词识别

新词发现 本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。...对于一些零散的文章,应当合并为整个大文件传入该算法。 高级参数 根据语料的长度或用词的不同,默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。...该构造函数如下: /**  * 构造一个新词识别工具  * @param max_word_len 词语最长长度  * @param min_freq 词语最低频率  * @param min_entropy...max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter) 其中: · max_word_len控制识别结果中最长的词语长度

80600
您找到你想要的搜索结果了吗?
是的
没有找到

基于自然语言识别下的流失用户预警

根据实际的业务营销效果,在模型上线后,abtest检验下模型识别用户人群进行营销后的流失率比随意营销下降9.2%,效果显著。...当前文本文义识别存在一些问题: (1)准确率而言,很多线上数据对特征分解的过程比较粗糙,很多直接基于df或者idf结果进行排序,在算法设计过程中,也是直接套用模型,只是工程上的实现,缺乏统计意义上的分析...首先,我们来看下,整个算法设计的思路: 1、通过hive将近期的用户评价hadoop文件下载为若干个text文件 2、通过R语言将若干个text整合读取为一个R内的dataframe 3、利用R...nerual network对结果进行重估 (原本我以为这样去做会导致很严重的过拟合,但是在实际操作之后发现,过拟合并不是很严重,至于原因我也不算很清楚,后续抽空可以研究一下) 下面,我们来剖析文本分类识别的每一步...,1]==result_combind_test[,2],])/nrow(result_combind_test) (2)Linear Support Vector Machine 这边需要用网格算法

1K130

车牌识别SDK算法

人工智能浪潮一波又一波,没有车牌识别,车辆限外的是难以监管下去的,下面说说比较普遍的车牌识别sdk在不同平台的用法。...移动端前端车牌识别SDK算法: 移动端前端车牌识别SDK算法软件特点: 1、识别速度快 “只需扫一扫,快速识别车牌” 像扫描二维码一样轻轻扫描,0.5s,便可快速准确的识别出车牌号码。...2、支持超大角度识别,准确识别车牌 3、支持多平台应用 移动端前端车牌识别算法完美支持ios系统,Android系统,支持手机ARM平台和PDA的X86架构 移动端前端车牌识别SDK算法配置要求: 操作系统...:支持ios7.0,Android4.0 硬件配置:推荐ARM Cortex-A7以上,1G RAM 头:支持自动对焦,200万像素以上 安装程序占用空间,2MBytes 移动端前端车牌识别算法支持全车牌

5.5K00

人员着装识别算法

人员着装识别系统通过yolo网络模型识别算法,人员着装识别系统算法通过现场安装的摄像头识别工厂人员及工地人员是否按要求穿戴着装,实时监测人员的着装情况,并进行相关预警。...首先先介绍一下滑动窗口技术,这对我们理解Yolo算法是有帮助的。人员着装识别算法采用滑动窗口的目标检测算法思路非常简单,它将检测问题转化为了图像分类问题。...在进行人员着装识别算法模型训练时,我们需要构造训练样本和设计损失函数,才能利用梯度下降对网络进行训练。...人员着装识别算法先使用ImageNet数据集对前20层卷积网络进行预训练,然后使用完整的网络,在PASCAL VOC数据集上进行对象识别和定位的训练。...人员着装识别算法训练中采用了drop out和数据增强(data augmentation)来防止过拟合。

16730

裸露土堆识别算法

裸露土堆识别算法首先利用图像处理技术,提取出图像中的土堆区域。裸露土堆识别算法首通过计算土堆中被绿色防尘网覆盖的比例,判断土堆是否裸露。若超过40%的土堆没有被绿色防尘网覆盖,则视为裸露土堆。...其中目标检测是一件比较实际的且具有挑战性的计算机视觉任务,其可以看成图像分类与定位的结合,给定一张图片,裸露土堆识别算法目标检测系统要能够识别出图片的目标并给出其位置,由于图片中目标数是不定的,且要给出目标的精确位置...比较流行的裸露土堆识别算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),它们是two-stage的,需要先使用启发式方法...YOLOv5是一种单阶段目标检测算法,裸露土堆识别算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。...主要的改进思路如下所示:输入端:裸露土堆识别算法在模型训练阶段,提出了一些改进思路,主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放;基准网络:裸露土堆识别算法融合其它检测算法中的一些新思路

16120

TensorFlow从1到2(五)图片内容识别自然语言语义识别

在《从锅炉工到AI专家(8)》文中,我们演示了一个使用vgg19神经网络识别图片内容的例子。那段代码并不难,但是使用TensorFlow 1.x的API构建vgg19这种复杂的神经网络可说费劲不小。...仍然使用原文中的图片尝试识别: $ ....使用这种方式,在图片识别中,换用其他网络模型非常轻松,只需要替换程序中的三条语句,比如我们将模型换为resnet50: 模型引入,由: from tensorflow.keras.applications...本例中,我们来看一个TensorFlow 2.0教程中的例子,自然语义识别。 程序使用IMDB影片点评样本集作为训练数据。...注意这三条影评都是我们即兴随意写出的,并非样本库中的数据,是真正的“自然语言”。 (待续...)

2.1K30

应用:基于自然语言识别下的流失用户预警

更新内容参见:基于自然语言识别下的流失用户预警 在电商运营过程中,会有大量的用户反馈留言,包括吐槽的差评,商品不满的地方等等,在用户运营生态中,这部分用户是最有可能流失也是最影响nps的人群,通过对其评价的语义分析...根据实际的业务营销效果,在模型上线后,abtest检验下模型识别用户人群进行营销后的流失率比随意营销下降9.2%,效果显著。...当前文本文义识别存在一些问题: (1)准确率而言,很多线上数据对特征分解的过程比较粗糙,很多直接基于df或者idf结果进行排序,在算法设计过程中,也是直接套用模型,只是工程上的实现,缺乏统计意义上的分析...首先,我们来看下,整个算法设计的思路: 1.通过hive将近期的用户评价hadoop文件下载为若干个text文件 2.通过R语言将若干个text整合读取为一个R内的dataframe 3.利用R里面的正则函数将文本中的异常符号...nerual network对结果进行重估 (原本我以为这样去做会导致很严重的过拟合,但是在实际操作之后发现,过拟合并不是很严重,至于原因我也不算很清楚,后续抽空可以研究一下) 下面,我们来剖析文本分类识别的每一步

51810

hanlp自然语言处理包的人名识别代码解析

石 秦 程 罗 胡 苏 范 萧 董 蒋 薛 袁 许 谢 谭 贺 贾 赖 赵 邓 邱 邵 邹 郑 郝 郭 金 钟 钱 阎 陆 陈 雷 韩 顾 马 高 魏 黄 黎 龚 实验效果 姓氏过滤前,各命名实体识别准确率...nr 33% ns 83% nt 43% 姓氏过滤后,各命名实体识别准确率 nr 36% ns 83% nt 81% 这里没有开层叠隐马预测机构名和地名,nt上升原因估计是由于很多不是人名的词语没被标为人名...错误识别的人名,100个常用姓氏的不多,很多恐怕是HanLP里其他词表干预进来的。 隐马一般用于分词和词性标注是比较好的,为什么通常的序列标注方法也就是BIEO方法直接用到实体识别不合适呢。...但是到了实体识别则不一定,拿人名来说,除了姓氏以外,名字词语部分可以填充的词语是任意的,也就是说任何词语都有可能出现在中间位置,此时发射矩阵中的某些词实际上就没有太大意义了,因为它可能等可能的由BIEO...,我想任何机器学习包括深度学习,不管是文本分类领域还是实体识别领域都会有这种泛化能力的问题,这种问题恐怕通过算法是没法解决的,如果可以解决那么任何语种任何领域都可以使用一种模型,一劳永逸了。

87130

【NLP】自然语言处理学习笔记(一)语音识别

前言 本笔记参考的课程是李宏毅老师的自然语言处理 课程Link:https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466 Token...在自然语言处理中,模型的架构基本一致,分成三个部分:编码器(Encoder)、上下文(Context)、解码器(Decoder) 主要模型有下面6种: Listen, Attend, and Spell...Limitation 任何模型都有局限性(Limitation),LAS的问题在于,需要听完整段话才能进行识别翻译,这就无法胜任同声翻译这样的场景。...Continuous LM Continuous LM的方式是借鉴到了推荐系统中的一个算法Matrix Factorization。...因为LM用来统计的是词典中各词的分布概率,在不同领域中,相同的单词可能会倾向不同的语义,这就需要更换LM来实现更精准的识别/翻译。

1.5K41

监控抽烟检测识别算法

监控抽烟检测识别算法采用yolov7系列网络模型深度学习图像识别技术,监控抽烟检测识别算法能够准确识别人员抽烟的动作和烟雾,监控抽烟检测识别算法一旦发现有人员在禁烟区域内抽烟,将立即触发预警。...监控抽烟检测识别算法使用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了有计划的重参数化模型。...针对这个问题,监控抽烟检测识别算法提出了一种新的标签分配方法,称为从粗粒度到细粒度(coarse-to-fine)的引导式标签分配。...监控抽烟检测识别算法 在 5 FPS 到 160 FPS 范围内,速度和精度都超过了所有已知的目标检测器。...监控抽烟检测识别算法并在V100 上,30 FPS 的情况下达到实时目标检测器的最高精度 56.8% AP。

27820

AI人员打架识别算法

AI打架识别算法基于Detection网络模型算法框架,AI打架识别算法识别校园打架斗殴行为,发现立即打架斗殴行为算法会立即抓拍告警推送打架事件信息。...,而AI人员打架识别算法直接从图片生成位置和类别。...研究现状 目前AI人员打架识别算法,主要有3种主流的方法,分别是:(1)基于Detection的打架检测。其主要思想是: 将打架作为一种类别,通过分类的方式,将打架行为检测出来。...2.选取的方案 我这里选择方案1,AI人员打架识别算法基于目标检测做打架识别。前文也提到了,目前数据集十分匮乏。笔者也是反复查找,终于拿到了国外的一份很好的数据集。...基本流程是:Labelme标注 -> 标注数据整理与格式转换 -> AI人员打架识别算法模型训练 -> 部署2.2 AI人员打架识别算法标注数据整理与格式转换        Labelme标注的数据,无法直接用在训练中

42620

裸露土方智能识别算法

裸露土方智能识别算法通过opencv+python网络模型框架算法,裸露土方智能识别算法能够准确识别现场土堆的裸露情况,并对超过40%部分裸露的土堆进行抓拍预警。...裸露土方智能识别算法用到的Python是一种由Guido van Rossum开发的通用编程语言,它很快就变得非常流行,主要是因为它的简单性和代码可读性。...也就是说,Python可以使用C / C++轻松扩展,这使裸露土方智能识别算法可以在C / C++中编写计算密集型代码,并创建可用作Python模块的Python包装器。...这给我们带来了两个好处:首先,裸露土方智能识别算法代码与原始C / C++代码一样快(因为它是在后台工作的实际C++代码),其次,在裸露土方智能识别算法中编写代码比使用C / C++更容易。...裸露土方智能识别算法可用于开发实时的图像处理、计算机视觉以及模式识别程序,该程序库也可以使用英特尔公司的IPP进行加速处理。

12820

安全帽识别算法

为了保证工作人员都能在作业中佩戴安全帽,保障作业人员安全,富维图像安全帽识别算法系统应运而生。...关键字:安全帽识别算法 安全帽识别算法技术原理 安全帽识别算法采用最新AI人工智能深度学习技术,基于计算机智能视频物体识别算法,且通过规模化的安全帽数据识别训练,赋予监控系统智能识别能力,从而准确判断识别场景内的作业人员是否佩戴安全帽...富维安全帽识别算法是人工智能机器视觉算法技术的集合,10年的技术积累使Fuwei vision具备了人工智能深度学习、图像识别、行为分析、态势感知、风险预警等能力,通过感知场景动态,实时分析和管理场景行为...安全帽识别算法工作流程 前端抓拍设备实时上传视频流至系统服务器。 服务器实时读取视频流,通过安全帽识别算法准确识别安全帽佩戴情况。...系统架构 安全帽识别算法优势 实时识别报警:安全帽识别算法基于智能视频分析和深度学习神经网络技术对监控区域内人员未戴安全帽行为实时识别报警,报警信息可显示在监控客户端界面,也可将报警信息推送到移动端,

56720

工人着装检测识别算法

工人未按要求穿戴安全衣物识别算法基于Trinity算法引擎,通过深度学习技术对人员是否按规定穿戴安全衣物进行识别。...主要算法类别:①反光衣识别:支持对反光衣进行识别,能够识别到橙、绿色马甲、工服套装等,在摄像头检测区域内对工人是否穿戴反光衣进行检测,并生成告警信息;②安全帽识别:对各种颜色的安全帽进行识别检测,在区域内检测到人员后对其是否佩戴安全帽进行识别...,监管的难度会比较大,口罩识别算法可以及时对现场人员佩戴口罩情况进行检测分析,及时产生预警;④工作服识别:对于一些特定的工厂来说,工人必须严格按照规定穿戴工作服。...工服识别算法支持识别港口、电力施工、维修、保洁等角色的人员是否穿戴工作服,自动识别区域内工服穿戴情况并及时预警。...能有效弥补传统人力巡查成本高、效率低、巡查不及时的弊端,利用人工智能算法对区域内人员着装规范进行及时识别,提高企业生产的安全性和规范性。

16700

老人跌倒检测识别算法 基于图像识别

选用背景差分法和形态学算法提取目标骨架,骨架提取经历九步:图像灰度化,背景差分法提取目标轮廓,使用CLAHE算法增强对比度,高斯滤波,Solel算子进行边缘检测,小波去噪,最大类间误差法二值化,形态学运算和中值滤波...算法总体效果可以,误检较少。...图片1.3 目标分割算法(1)使用CLAHE算法增强对比度CLAHE同普通的自适应直方图均衡不同的地方主要是其对比度限幅。...本文选用背景差分法和形态学算法提取目标骨架,骨架提取经历九步:图像灰度化,背景差分法提取目标轮廓,使用CLAHE算法增强对比度,高斯滤波,Solel算子进行边缘检测,小波去噪,最大类间误差法二值化,形态学运算和中值滤波...算法总体效果可以,误检较少。

20100

算法集锦(17)|自然语言处理| 比特币市场情绪分析算法

本次算法分享,我们提供了一种可以通过Twitter(或微博)信息进行加密货币市场预测的方法。该方法利用Twitter上的数据来预测人们对加密货币市场的情绪:贪婪?恐惧还是观望? ?...具体的,我们可以使用像TextBlob这样的Python NLP(自然语言处理库)来评估语句是正面的还是负面的。...总的来说,本算法主要有两个流程: 获取微博信息 将微博信息作为字符串输入TextBlob,并估算其极性 ?...算法基本内容 在此,我们并不重点分析市场的情绪如何,而是讨论的是如何收集和分析我们的数据。...以上是本算法的基本内容,你可以参考本算法去评估更多的市场行为。 对于本算法的优化,可行的方向有:使用机器学习模型来细化极性输出或者使用极性作为其他机器学习模型的输入,等等。

1.3K10

Sensory TrulyNatural - 设备端的高度可定制自然语言识别

with NLU Sensory的TrulyNatural是业内领先的小尺寸(small-footprint),尺寸和功能可扩展(scalable in size and features)的边缘侧自然语言识别技术...Sensory是使用嵌入式基于神经网络技术的语音识别技术的开创者,并且已经成为小尺寸,小算力语音识别算法的行业领导者。...快速 嵌入式,小算力,零网络延时,快速反应 高精度 按应用领域定制,性能超过云端通用识别 自然 完全自然语言交互,无需记忆预设命令 灵活 同时支持简单短语和基于统计分析(statistical...Sensory针对特定应用领域的自然语言交互系统其性能和用户体验,远远好于通用云端自然语言识别。...如以下Sensory为微波炉应用而开发的设备端嵌入式自然语言交互系统。 Sensory TNL SDK - ?

51220

非主流自然语言处理——遗忘算法系列(一):算法概述

一、前言 这里“遗忘”不是笔误,这个系列要讲的“遗忘算法”,是以牛顿冷却公式模拟遗忘为基础、用于自然语言处理(NLP)的一类方法的统称,而不是大名鼎鼎的“遗传算法”!   ...在“遗忘”这条非主流自然语言处理路上,不知不觉已经摸索了三年有余,遗忘算法也算略成体系,虽然仍觉时机未到,还是决定先停一下,将脑中所积梳理成文,交由NLP的同好们点评交流。...在自然语言处理中,很多对象比如:词、词与词的关联、模板等,都具备按相对稳定重现的特征,因此非常适用遗忘来处理。 三、牛顿冷却公式   那么,我们用什么来模拟遗忘呢?   ...四、已经实现的功能 如果把自然语言处理比作从矿砂中淘金子,那么业界主流算法的方向是从矿砂中将金砂挑出来,而遗忘算法的方向则是将砂石筛出去,虽然殊途但同归,所处理的任务也都是主流中所常见。   ...本系列文章将逐一讲解遗忘算法如何以O(N)级算法性能实现:   1、大规模语料词库生成 1.1、跨语种,算法语种无关,比如:中日韩、少数民族等语种均可支持 1.2、未登录词发现(只要符合按相对稳定周期性重现的词汇都会被收录

1.8K120
领券