linux ctb_js-ctb/6_linux ssh linux - 腾讯云开发者社区

考虑到 jieba 分词和 THULAC 工具包等并没有提供细领域的预训练模型，为了便于比较，开发团队重新使用它们提供的训练接口在细领域的数据集上进行训练，用训练得到的模型进行中文分词。他们选择 Linux 作为测试环境，在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。在此过程中，他们使用第二届国际汉语分词评测比赛提供的分词评价脚本，其中 MSRA 与 WEIBO 使用标准训练集测试集划分，CTB8 采用随机划分。对于不同的分词工具包，训练测试数据的划分都是一致的；即所有的分词工具包都在相同的训练集上训练，在相同的测试集上测试。

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型

一位是来自清华的THULAC，一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。

您找到你想要的搜索结果了吗？

是的

没有找到

初学者|一起走进PKUSeg

创新工场提出中文分词和词性标注模型，性能分别刷新五大数据集| ACL 2020

中文分词和词性标注是中文自然语言处理的两个基本任务。尽管以BERT为代表的预训练模型大行其道，但事实上，中文中基于全词覆盖（whole word masking）的预训练模型比直接使用单字编码的效果更好，所以引入词信息可能会达到更好的效果。

创新工场两篇论文入选ACL 2020，将中文分词数据刷至新高

数据猿报道 2020年7月5日至7月10日，第58届自然语言处理领域（NLP）顶级学术会议 ACL 2020 在线上成功举行。

联合汉语分词和依存句法分析的统一模型：当前效果最佳

对此，传统的解决方案是采用基于转换的联合模型。但这些模型仍然具有不可避免的缺陷：特征工程和巨大的搜索空间。因此，本文提出一种基于图的统一模型来解决这些问题。

分析与总结常见勒索软件的加密算法

1、引言 1.1勒索软件勒索软件(ransomware)是一种运行在计算机上的恶意软件，通过绑架用户文件，使用户数据资产或计算资源无法正常使用，并以此为条件向用户勒索钱财。这类用户数据资产包括文档、数据库、源代码、图片、压缩文件等多种文件。赎金形式通常为比特币，少数为真实货币或其他虚拟货币。按照已有资料考证，早在1989年，第一款勒索软件就已经问世，但这与本文内容关系不大，不做讨论。而近期的勒索软件是从2012年开始流行，并于 2013年引起了广泛的重视。截止至当前，勒索软件的受害者已有上千万用户

使用Stanford NLP工具实现中文命名实体识别

使用斯坦福大学的分词器，下载地址http://nlp.stanford.edu/software/segmenter.shtml，从上面链接中下载stanford-segmenter-2014-10-26，解压之后，如下图所示

有线电视光端机/射频光端机技术问答

北京海特伟业科技有限公司文/任洪卓发布日期：2022-05-23 17:14

复旦邱锡鹏团队最新成果fastHan：基于BERT的中文NLP集成工具

fastHan 是基于 fastNLP 与 PyTorch 实现的中文自然语言处理工具，像 spacy 一样调用方便。其内核为基于 BERT 的联合模型，其在 13 个语料库中进行训练，可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务。

数据不平衡问题成“千年”难题，看ACL新方法Dice Loss如何有效解决！

本文介绍的是 ACL 2020 论文《Dice Loss for Data-imbalanced NLP Tasks》，论文作者来自香侬科技、浙江大学。

中文NLP的分词真有必要吗？李纪为团队四项任务评测一探究竟 | ACL 2019

作者| Yuxian Meng、Xiaoya Li、Xiaofei Sun、Qinghong Han、Arianna Yuan、 Jiwei Li

复旦大学提出中文分词新方法，Transformer连有歧义的分词也能学

本文经机器之心（微信公众号：almosthuman2014）授权转载，禁二次转载

复旦大学提出中文分词新方法，Transformer连有歧义的分词也能学

从不同的角度看待中文句子，可能使中文分词任务（CWS）的标准完全不同。例如「总冠军」既可以看成独立的词，也能理解为「总」和「冠军」两个词。以前这种情况非常难解决，我们只能定一些字典或规则来加强这些词的划分。

NLP札记1

NLP（Natural Language Processing），自然语言处理，是一门融合了计算机科学、人工智能以及语言学的交叉学科。自然语言和编程语言对比自然语言比编程语言的词汇量丰富自然语言是非机构化的；编程语言是结构化的。结构化指的是信息具有明确的结构关系，比如编程语言中具有类和成员、数据库中的表和字段等，都可以通过明确的机制来进行读写。自然语言存在大量的歧义，这些歧义根据语境的不同变现为特定的义项。自然语言容错性高，编程语言中程序员必须保证拼写、语法绝对规范。编程语言的变化缓慢温和

CSO指南：全球最危险也最有名的勒索软件清单

勒索软件的历史悠久，甚至可以追溯到1980年代后期。如今，勒索软件正为其背后的犯罪集团创造数十亿美元的收入。

分类I-树、延迟和概率笔记

这个数据集和书中的略有区别，不过应该是包含的关系，这个数据的样本更多，应该不影响的。扩展：split函数完成训练和测试的划分

Tor的恶意应用

Tor本来是为用户提供匿名上网保护用户隐私的工具，但是对于一些用户来说，他们可以利用Tor的隐蔽性进行黑客攻击或非法交易活动。总结Tor的恶意应用主要表现在以下几方面。 1.Botnet利用Tor 僵尸网络作为最有效的网络攻击平台，给互联网安全带来了巨大的威胁。随着攻防技术的不断研究，僵尸网络的形态和控制命令机制也在不断变化[1]：（1）首先是IRC机制，中心化结构但是有单点故障问题；（2）P2P结构，解决了单点故障问题，但是无法监视命令状态，实现又很复杂；（3）HTTP协议的botnet，又不断改进

011

从海豹窥见比亚迪的品牌向上之路 | 数读汽车

海豹是比亚迪今年投放的重磅产品，作为比亚迪e平台3.0的产物，海豹身上可谓集齐了比亚迪e平台3.0的大部分核心卖点，包括CTB电池集成到车身、高压快充平台、ITAC扭矩分配等新技术。

视频编码（2）：H.265 如何比 H.264 提升 40% 编码效率丨音视频基础

我们在前文《视频编码（1）》中探讨了 H.264 视频编码的基本概念、编码工具、编码流程及码流结构等基础知识，接下来我们来继续探讨在 H.264 基础上迭代而生的 H.265 有哪些改进，看看它是如何在同样的画面质量下将编码码率降下来的。本文内容包括如下章节：

ACL2019 | 中文到底需不需要分词

AI 科技评论按，本文转载自微信号“香侬科技”，AI 科技评论获授权转载。近日，香侬科技发表论文Is Word Segmentation Necessary for Deep Learning of

Head First Stanford NLP (4)

(深入浅出Stanford NLP 深入篇) 本文介绍与Stanford CoreNLP源码相关的内容。

勒索软件Cryptolocker最新变种感染群晖NAS网络存储设备

2014年肆虐互联网的勒索软件Cryptolocker变种正如雨后春笋般涌现。现在，Cryptolocker开始向群晖（Synology）网络存储器设备（NAS）发起了攻击。走近勒索软件Crypto

LTP 4.0！单模型完成6项自然语言处理任务

语言技术平台（Language Technology Platform, LTP）是哈工大社会计算与信息检索研究中心（HIT-SCIR）历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析（分词、词性标注、命名实体识别）、句法分析（依存句法分析）和语义分析（语义角色标注、语义依存分析）等多项自然语言处理技术于一体。

一步一步学Linq to sql(十)：多层架构MVC WCF Linq

A，MVC网站项目 MvcOperation：留言簿表现层 B，类库项目 Contract：定义数据访问服务的契约 C，类库项目 Service：定义数据访问服务 D，类库项目Entity：留言簿实体 E，控制台项目Host：承载数据访问服务

【玩转Lighthouse】搭建Hydro信息学在线评测系统

在教育部“双减”政策下，ACM、OI 等信息学赛事逐渐被越来越多的人重视。而搭建一个优秀的信息学在线评测系统，对于学校教学、团队训练都是非常重要的。

011

《自然语言处理入门》12.依存句法分析--提取用户评论

语法分析(syntactic parsing )是自然语言处理中一个重要的任务，其目标是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)。同时，语法分析也是所有工具性NLP任务中较为高级、较为复杂的一种任务。通过掌握语法分析的原理、实现和应用，我们将在NLP工程师之路上跨越一道分水岭。本章将会介绍短语结构树和依存句法树两种语法形式，并且着重介绍依存句法分析的原理和实现。

高性能，依存句法解析器，基于三层神经网络模型

论文实现了一个准确快速的依存句法分析器( Dependency Parser)，模型是三层神经网络，解决了三个目前普遍存在的语义分析难题。

自然语言处理中的分词问题总结

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。

蘑菇街、滴滴、淘宝、微信的组件化架构解析，附源码Demo和PDF

随着移动互联网的不断发展，很多程序代码量和业务越来越多，现有架构已经不适合公司业务的发展速度了，很多都面临着重构的问题。

个人隐私保护-Bitwarden

Bitwarden 是一个类似 1Password 和 LastPass 的开源密码管理软件，Bitwarden RS 是基于 Rust 语言的一个实现，更轻量一些，可能效率也会更高一点点，并且是完全兼容官方 App 的，比如各种浏览器扩展，手机 App 等。[ 摘抄 ]

系统梳理EEG中常用的功能连接指标—系列2（终）

在之前的文章《系统梳理EEG中常用的功能连接指标—系列1》中，笔者对皮尔森相关系数（Pearson correlation coefficient）、波谱相干（Spectral coherence）、互信息（Mutual information,MI）、相锁值（Phase Locking Value, PLV）4个功能连接指标的计算方法、优缺点进行了介绍。本文为系列2，继续对相关的功能连接指标进行梳理。

新能源车“乱战时代”，车企们在争什么？

据不完全统计，国内市场在售的新能源汽车品牌，已经超过了70多个。而这70多个品牌，目前已经推出了200多款新能源汽车。其中包括传统厂商参与孵化出的各种新品牌，比如上汽智己、长安阿维塔、长安深蓝、长城沙龙等。

跟着PNAS学画图：R语言ggplot2分面的堆积柱形图，有点类似展示群体结构k的那个图

这篇论文的数据和代码是公开的，链接是 https://github.com/CPop-SDU/sex-gap-e0-pnas，我们按照他提供的代码和数据试着复原一下论文里的图。今天的推文重复的内容是论文中的Figure1A

单模型可完成6项NLP任务，哈工大SCIR LTP再度升级，4.0版本面世

LTP 的全称为「Language Technology Platform」，是哈工大社会计算与信息检索研究中心（HIT-SCIR）历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。

Python自然语言处理工具小结

作者：伏草惟存来源：http://www.cnblogs.com/baiboy/p/nltk2.html 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口，还有分类、分词、除茎、标注、语法分析、语义推理等类库。 Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger)，N元搜索(n-gram search)，情感分析(senti

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐