首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于凝聚度和自由度的非监督词库生成

中文分词是中文文本自然语言处理的第一步,然而分词效果的好坏取决于所使用的语料词库和分词模型。主流的分词模型比较固定,而好的语料词库往往很难获得,并且大多需要人工标注。这里介绍一种基于词频、凝聚度和自由度的非监督词库生成方法,什么是非监督呢?输入一大段文本,通过定义好的模型和算法,即可自动生成词库,不需要更多的工作,听起来是不是还不错? 参考文章:互联网时代的社会语言学:基于SNS的文本数据挖掘,点击阅读原文即可查看。访问我的个人网站查看更详细的内容,包括所使用的测试文本和代码。 获取所有的备选词语 假设对于

05

深入分析 Java 中的中文编码问题

不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言。由于人类的语言有太多,因而表示这些语言的符号太多,无法用计算机中一个基本的存储单元—— byte 来表示,因而必须要经过拆分或一些翻译工作,才能让计算机能理解。我们可以把计算机能够理解的语言假定为英语,其它语言要能够在计算机中使用必须经过一次翻译,把它翻译成英语。这个翻译的过程就是编码。所以可以想象只要不是说英语的国家要能够使用计算机就必须要经过编码。这看起来有些霸道,但是这就是现状,这也和我们国家现在在大力推广汉语一样,希望其它国家都会说汉语,以后其它的语言都翻译成汉语,我们可以把计算机中存储信息的最小单位改成汉字,这样我们就不存在编码问题了。

02
领券