专栏首页Java成神之路Java_util_02_Java判断字符串是中文还是英文

Java_util_02_Java判断字符串是中文还是英文

做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。

方法一:字符与字节的长度

依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。

示例:

 1  public static boolean isEnglish(String p) {  
 2   byte[] bytes = p.getBytes();  
 3   int i = bytes.length;//i为字节长度  
 4   int j = p.length();//j为字符长度  
 5   if(i==j){
 6   return true;
 7   }else{
 8   return false;
 9   }
10  }  

方法二:正则表达式

依据:中文Unicode编码表

字符集

字数

Unicode 编码

基本汉字

20902字

4E00-9FA5

基本汉字补充

38字

9FA6-9FCB

扩展A

6582字

3400-4DB5

扩展B

42711字

20000-2A6D6

扩展C

4149字

2A700-2B734

扩展D

222字

2B740-2B81D

康熙部首

214字

2F00-2FD5

部首扩展

115字

2E80-2EF3

兼容汉

477字

F900-FAD9

兼容扩展

542字

2F800-2FA1D

PUA(GBK)部件

81字

E815-E86F

部件扩展

452字

E400-E5E8

PUA增补

207字

E600-E6CF

汉字笔画

36字

31C0-31E3

汉字结构

12字

2FF0-2FFB

汉语注音

22字

3105-3120

注音扩展

22字

31A0-31BA

1字

3007

 1 package org.liufeng.course.util;
 2 import java.util.regex.Matcher;
 3 import java.util.regex.Pattern;
 4 /**
 5  * Description 提供判断字符串是中文或者是英文的一种思路
 6  * 
 7  */
 8 public class ChineseAndEnglish_Util {
 9     public static void main(String[] args) {
10         String str = "我爱你,!?():;“”、。";
11         char[] charArray = str.toCharArray();
12         for (int i = 0; i < charArray.length; i++) {
13             isChinese(charArray[i]);
14         }
15         String chinese = "中国god damn";
16         System.out.println(isContainChinese(chinese));
17         String english = "dfafdabac";
18         System.out.println(isEnglish(english));
19     }
20     
21     /**
22      * 1.判断字节是否是中文
23      * 
24      * CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码 
25      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS             :4E00-9FBF:CJK 统一表意符号 
26      * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS       :F900-FAFF:CJK 兼容象形文字
27      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A 
28      * Character.UnicodeBlock.GENERAL_PUNCTUATION                :2000-206F:常用标点 
29      * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION        :3000-303F:CJK 符号和标点 
30      * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS      :FF00-FFEF:半角及全角形式
31      * 
32      */
33     public static boolean isChinese(char c) {
34         Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
35         if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
36                 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
37                 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
38                 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
39                 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
40                 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
41             return true;
42         }
43         return false;
44     }
45     //2.检测是否包含英文
46     public static boolean isEnglish(String charaString) {
47         return charaString.matches("^[a-zA-Z]*");
48     }
49     //3.检测是否包含中文
50     public static boolean isContainChinese(String str) {
51         String regEx = "[\\u4E00-\\u9FA5]+";
52         Pattern p = Pattern.compile(regEx);
53         Matcher m = p.matcher(str);
54         if (m.find()) {
55             return true;
56         } else {
57             return false;
58         }
59     }
60 }

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Java微信公众平台开发_02_启用服务器配置

                         见:【  Java微信公众平台开发_01_本地服务器映射外网  】

    shirayner
  • Java企业微信开发_06_素材管理之上传本地临时素材文件至微信服务器

    media_id是可复用的,同一个media_id可用于消息的多次发送(3天内有效)

    shirayner
  • Java微信开发_Exception_03_errcode:48001 errmsg:api unauthorized hint

    异常信息:errcode:48001 errmsg:api unauthorized hint

    shirayner
  • SpringBoot 应用整合JWT详解

    Spring Boot、OAuth 2.0、JWT、Spring Security、SSO、UAA

    JAVA葵花宝典
  • 中方控股的Arm合资公司开始运营,还要在国内IPO

    日经亚洲商业评论报道,半导体 IP 授权公司 ARM 在中国新成立的合资公司已经于今年 4 月开始运营。

    AI科技大本营
  • 开源硬件是趋势,Arm 却走了一条与众不同的路

    “开源”一词所代表的不仅仅是技术人员的情怀,它还传达了诸如研究知识共享和社区建设之类的观点。虽然开源一直都在产生积极的影响 —— 随着开源微处理器指令集架构 R...

    Debian社区
  • Chrome 控制台console的用法(学了之后对于调试js可是大大有用的哦)

    ["$$", "$x", "dir", "dirxml", "keys", "values", "profile", "profileEnd", "monito...

    wuweixiang
  • 加拿大AI初创公司Mindbridge获840万美元A轮融资

    数据猿
  • 【独家】人工智能『AI』应用算法交易,7个必踩的坑!

    大多数人在一段时间内使用HOLC(高、开、低、收)价格和交易量。这些信息不足以反映出市场的有关信息和交易者的行为。我们需要从订单中获取更直接的价格bids和as...

    量化投资与机器学习微信公众号
  • springboot整合jdbcTemplate

    贪挽懒月

扫码关注云+社区

领取腾讯云代金券