做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。
依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。
示例:
1 public static boolean isEnglish(String p) {
2 byte[] bytes = p.getBytes();
3 int i = bytes.length;//i为字节长度
4 int j = p.length();//j为字符长度
5 if(i==j){
6 return true;
7 }else{
8 return false;
9 }
10 }
依据:中文Unicode编码表
字符集 | 字数 | Unicode 编码 |
---|---|---|
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 38字 | 9FA6-9FCB |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 22字 | 3105-3120 |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |
1 package org.liufeng.course.util;
2 import java.util.regex.Matcher;
3 import java.util.regex.Pattern;
4 /**
5 * Description 提供判断字符串是中文或者是英文的一种思路
6 *
7 */
8 public class ChineseAndEnglish_Util {
9 public static void main(String[] args) {
10 String str = "我爱你,!?():;“”、。";
11 char[] charArray = str.toCharArray();
12 for (int i = 0; i < charArray.length; i++) {
13 isChinese(charArray[i]);
14 }
15 String chinese = "中国god damn";
16 System.out.println(isContainChinese(chinese));
17 String english = "dfafdabac";
18 System.out.println(isEnglish(english));
19 }
20
21 /**
22 * 1.判断字节是否是中文
23 *
24 * CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码
25 * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS :4E00-9FBF:CJK 统一表意符号
26 * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS :F900-FAFF:CJK 兼容象形文字
27 * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A
28 * Character.UnicodeBlock.GENERAL_PUNCTUATION :2000-206F:常用标点
29 * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION :3000-303F:CJK 符号和标点
30 * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS :FF00-FFEF:半角及全角形式
31 *
32 */
33 public static boolean isChinese(char c) {
34 Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
35 if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
36 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
37 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
38 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
39 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
40 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
41 return true;
42 }
43 return false;
44 }
45 //2.检测是否包含英文
46 public static boolean isEnglish(String charaString) {
47 return charaString.matches("^[a-zA-Z]*");
48 }
49 //3.检测是否包含中文
50 public static boolean isContainChinese(String str) {
51 String regEx = "[\\u4E00-\\u9FA5]+";
52 Pattern p = Pattern.compile(regEx);
53 Matcher m = p.matcher(str);
54 if (m.find()) {
55 return true;
56 } else {
57 return false;
58 }
59 }
60 }