首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

北大开源全新中文分词工具包:准确率远超THULAC、结巴分词

根据北大研究组的测试结果,pkuseg 分别在示例数据集(MSRA 和 CTB8)上降低了 79.33% 和 63.67% 的分词错误率。 多领域分词:研究组训练了多种不同领域的分词模型。...他们选择 Linux 作为测试环境,在新闻数据(MSRA)和混合型文本(CTB8)数据上对不同工具包进行了准确率测试。此外,测试使用的是第二届国际汉语分词评测比赛提供的分词评价脚本。...CTB8:在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。 WEIBO:在微博(网络文本语料)上训练的模型。...其中,MSRA 数据由第二届国际汉语分词评测比赛提供,CTB8 数据由 LDC 提供,WEIBO 数据由 NLPCC 分词比赛提供。在 GitHub 项目中,这三个预训练模型都提供了下载地址。.../ctb8'目录下,通过设置model_name加载该模型 seg = pkuseg.pkuseg(model_name='.

1.3K20

终被捕!5名罗马尼亚黑客因入侵华盛顿政府摄像头被捕

导语:作为国际勒索软件案调查的一部分,美国和欧洲(英国、荷兰、罗马尼亚)执法当局于上周三(12月20日)正式对外宣布称,他们在过去一周已经合作逮捕了五名罗马尼亚籍黑客,缉获了与恶意软件CTB-Locker...传播CTB-Locker和Cerber勒索软件 欧洲刑警组织表示,他们抓到的5名黑客是利用暗网中的“勒索软件即服务”(Ransomware-as-a-service)平台发动攻击的,而勒索到非法所得的30%...据调查,在5名黑客中有3名涉及散布CTB-Locker勒索软件,感染了欧洲数国的共170名受害者,而另外两名则散布了Cerber勒索软件,感染了美国华盛顿特区的123台NVR。...据执法机构介绍称,这些黑客主要通过发送垃圾邮件的方式来感染受害者的计算机系统,随后使用CTB Locker勒索软件对受害者数据进行加密。...【6月27日被勒索软件感染后笔记本电脑屏幕显示的一条信息】 联邦调查局表示,目前这三名涉嫌散布CTB-Locker勒索软件的犯罪分子已被顺利逮捕,并将在罗马尼亚被正式起诉。

70060

启明云端分享:配备 SigmaStar 双核 Cortex-A7 处理器高效主板

概述 IDO-CTB2D43 主板,配备 SigmaStar 双核 Cortex-A7 处理器,主频高达 1.2GHz,32KBI-Cache/32KBD-Cache/256KB L2-缓存,内置 Neon...IDO-CTB2D43 主板支持 TTL/mipi 屏显示驱动接口、以太网 MAC、USB2.0 和 WIFI,主要应用于智能楼宇室内机、智能家居中控、86 盒家庭中控、电梯楼层显示器、IP 网络广播设备和语音识别设备等等...IDO-CTB2D43 主板.png 硬件参数 CPU:SigmaStar SSD201/SSD202 ARM® Cortex-A7 双核处理器,主频高达 1.2GHz 视频处理器:支持最大分辨率FHD...存储器,支持自动刷新和自刷新模式,默认 64MB(最大支持 128MB) 存储器:支持 1/2/4 位 SPI-NOR/SPI-NAND Flash,默认 128MB(最大支持 512MB) 系统:Linux

77830

NLP系列(一)pkuseg-python:一个高准确度的中文分词工具包

根据我们的测试结果,pkuseg分别在示例数据集(MSRA和CTB8)上降低了79.33%和63.67%的分词错误率。 多领域分词。我们训练了多种不同领域的分词模型。...实验人员选择Linux作为测试环境,在新闻数据(MSRA)和混合型文本(CTB8)数据上对不同工具包进行了准确率测试,使用了第二届国际汉语分词评测比赛提供的分词评价脚本。...MSRA F-score Error Rate jieba 81.45 18.55 THULAC 85.48 14.52 pkuseg 96.75 (+13.18%) 3.25 (-77.62%) CTB8...') #假设用户已经下载好了ctb8的模型并放在了'..../ctb8'目录下,通过设置model_name加载该模型 text = seg.cut('我爱北京天安门') #进行分词 print(text) loading model finish ['我',

1.2K20

初学者|一起走进PKUSeg

作者在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。使用了第二届国际汉语分词评测比赛提供的分词评价脚本。...其中MSRA与WEIBO使用标准训练集测试集划分,CTB8采用随机划分。对于不同的分词工具包,训练测试数据的划分都是一致的;即所有的分词工具包都在相同的训练集上训练,在相同的测试集上测试。.../models, nthread=20) 7.模型配置 pkuseg.pkuseg(model_name=ctb8, user_dict=[]) # model_name 模型路径。...默认是ctb8表示我们预训练好的模(仅对pip下载的用户)。 # 用户可以填自己下载或训练的模型所在的路径如# model_name=./models。 # user_dict 设置用户词典。...8.对文件进行分词 pkuseg.test(readFile, outputFile, model_name=ctb8, user_dict=[], nthread=10) readFile 输入文件路径

72740

初学者|一起走进PKUSeg

作者在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。使用了第二届国际汉语分词评测比赛提供的分词评价脚本。...其中MSRA与WEIBO使用标准训练集测试集划分,CTB8采用随机划分。对于不同的分词工具包,训练测试数据的划分都是一致的;即所有的分词工具包都在相同的训练集上训练,在相同的测试集上测试。.../models, nthread=20) 7.模型配置 pkuseg.pkuseg(model_name=ctb8, user_dict=[]) # model_name 模型路径。...默认是ctb8表示我们预训练好的模(仅对pip下载的用户)。 # 用户可以填自己下载或训练的模型所在的路径如# model_name=./models。 # user_dict 设置用户词典。...8.对文件进行分词 pkuseg.test(readFile, outputFile, model_name=ctb8, user_dict=[], nthread=10) readFile 输入文件路径

1.3K30

音响频谱测试软件_频谱分析仪有什么用

因为许多测量的本质都是电平测试,如载波电平、A/V、频响、C/N、CSO、CTB、HM、CM以及s数字频道平均功率等。...内容:测试项目、信号输入方式(频率还是频道)、显示单位、制式、噪声测量带宽和取样点、测CTB、CSO的频率点、测试行选通等。...Beats setup拍频设置、测CTB、CSO的频点(频率偏移CTB FRQ offset、CSO FRQ offset)。GATING YES NO是否选通测试行。...3、测CTB必须关掉载波。因为CTB产物集中分布在载频近旁。关断载频后,CTB、CSO产物都可以在屏幕上看到。区别哪个是CTB还是CSO,利用他们与输入电平的关系来判断。...4、下列测试项目需要在场逆程插入静止测试行:不关断调制测C/N、CSO;测CTB; 前面板示意图 后面板示意图 显示器注释说明 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

56020

中文分词最佳记录刷新了,两大模型分别解决中文分词及词性标注问题丨已开源

实验结果显示,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均达了最好的成绩。 ?...在跨领域实验中,论文使用网络博客数据集(CTB7)测试。实验结果显示,在整体F值以及未登陆词的召回率上都有比较大提升。 ?...一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作,也大幅度超过了斯坦福大学的 CoreNLP...即使是在与CTB词性标注规范不同的UD数据集中,该模型依然能吸收不同标注带来的知识,并使用这种知识,得到更好的效果。 ?...△ CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果 而在跨领域的实验中,和斯坦福大学的 CoreNLP 工具相比,该模型也有近10个百分点的提升。 ?

1.3K40

有线电视光端机射频光端机技术问答

在光纤传输系统中产生的失真主要是CSO失真,而CTB失真的程度远比CSO失真小,为了确保系统的传输质量,使系统载噪比和失真性能处于合理的范围之内,采取的措施一般利用CNR指标来平衡CSO、CTB指标。...如果增加或者减小CNR值1dB,那么CSO就会恶化或者改善1dB,CTB指标就会恶化或者改善2dB。 5、有线电视光传输系统组成部分有哪些?...光接收机的主要技术是C/N、C/CTB、C/CSO。...而C/CSO、C/CTB两项技术指标由光电模块的线性度而定,高质量的光电模块在C/CSO、C/CTB指标相同的情况下,允许更宽的接收功率范围。 10、有线电视光接收机的分类及应用如何?...DFB光发射机的RF驱动电平直接决定光发射机的调制度,同时也决定了C/N、CTB、CSO值的大小。

43010

创新工场两篇论文入选ACL 2020,将中文分词数据刷至新高

实验结果显示,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均达了最好的成绩(F值越高,性能越好)。...和前人工作的比较 在跨领域实验中,论文使用网络博客数据集(CTB7)测试。实验结果显示,在整体F值以及未登陆词的召回率上都有比较大提升。 ?...一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作,也大幅度超过了斯坦福大学的 CoreNLP...即使是在与CTB词性标注规范不同的UD数据集中,该模型依然能吸收不同标注带来的知识,并使用这种知识,得到更好的效果。 ? 该模型在所有数据集上均超过了之前的工作 ?...CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果 而在跨领域的实验中,和斯坦福大学的 CoreNLP 工具相比,该模型也有近10个百分点的提升。 ?

80220
领券