答:文档频率、信息增益、互信息、X^2统计、TF-IDF
答:LingPipe、FudanNLP、OpenNLP、CRF++、Standord CoreNLP、IKAnalyzer
答: (1)有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。 无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习 (2)有监督学习的样本全部带标记,无监督学习的样本全部不带标记。 PS:部分带标记的是半监督学习 (3)训练集有输入有输出是有监督,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means 、PCA、 GMM等
答:kNN,kMeans,决策树,随机森林等
public class SplitChineseCharacter { public static void main(String[] args) { String input = "太好了,今天是星期六啊"; new Split(input).start(); } } class Split { private String[] dictionary = {"今天", "是", "星期", "星期六"}; private String input = null; public Split(String input) { this.input = input; } public void start() { String temp = null; System.out.println(this.input.length()); for(int i = 0; i < this.input.length(); i++) { temp = this.input.substring(i); if(this.isInDictionay(temp)) { System.out.println(temp); this.input = this.input.replace(temp, ""); i = - 1; } } if(null != this.input && !"".equals(this.input)) { this.input = this.input.substring(0, this.input.length() - 1); this.start(); } } public boolean isInDictionay(String temp) { for(int i = 0; i < this.dictionary.length; i++) { if(temp.equals(this.dictionary[i])) { return true; } } return false; } }
运行结果:
星期六 是 今天
本文分享自微信公众号 - 海天一树(gh_de7b45c40e8b),作者:?
原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。
原始发表时间:2018-04-03
本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。
我来说两句