前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Java代码工具之中英文语句分词

Java代码工具之中英文语句分词

原创
作者头像
用户9084242
发布2023-02-21 22:48:06
5950
发布2023-02-21 22:48:06
举报
文章被收录于专栏:Java开发手册Java开发手册

在自然语言处理中比较热门的操作就是中文或英文语句分词了,分词就是按照不同的算法和参数将语句分成若干词汇。拆分后的关键词可以进行词频统计或者词云图片生成等,能够快速方便的找到语句的核心主题热点。

在java开发中,如果单纯进行原始功能开发,分词功能耗时耗力,效果不一定能达到理想结果。有一个比较流行的代码工具平台“昂焱数据”,其官方网址为www.ayshuju.com。上面有封装好的各种功能代码工具。该网站上的“语句分词及相似度对比”java代码工具可以直接使用,中文语句分词支持的分词算法包括Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英文语句分词支持的分词算法包括IKAnalysis、StanfordNlp等两种主流算法。

下面将“语句分词及相似度对比”工具使用步骤做一下记录:

第一步:下载并安装jar到本地maven库

登录该网站,在“代码工具”一栏找到“语句分词及相似度对比”代码工具,代码工具如下图所示:

下载该代码工具并解压,双击“”执行,将提示的maven坐标粘贴到项目的pom文件中即可。

第二步:将该jar包的maven坐标粘贴到项目的pom文件中

第三步:完整的测试代码如下

代码语言:javascript
复制
package com.example.demo.test;

import com.angyan.tool.word.base.enums.ChineseTokenizerEnum;
import com.angyan.tool.word.base.enums.EnglishTokenizerEnum;
import com.angyan.tool.word.util.TokenizerUtil;
import java.util.List;

/**
 * @author angyankj
 */
public class ParticipleTest {
    public static void main(String[] args) {
        // 中文文本
        String chnContent = "昂焱数据是为IT行业各种角色人员提供丰富的一站式技术资源的平台!";
        // 中文分词
        String chnResult = TokenizerUtil.getChineseTokenizerResult(ChineseTokenizerEnum.ANSJ, chnContent);
        // 打印中文分词结果
        System.out.println(chnResult);
        // 英文文本
        String engContent = "Love is not a maybe thing. You know when you love someone.";
        // 英文分词
        List<String> engResult = TokenizerUtil.getEnglishTokenizerResult(EnglishTokenizerEnum.IKANALYZER, engContent);
        // 打印英文分词结果
        System.out.println(engContent);
    }
}

中文分词及英文分词的运行结果如下(分词之间以空格隔开):

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档