源码阅读String-JAVA成长之路

文章来源：企鹅号 - JAVA数据结构

首先，将一个类分为几个部分，分别是类定义（继承，实现接口等），全局变量，方法，内部类等等，再分别对这几个部分进行说明，这样到最后类的全貌也就比较直观了。

一：实现接口。

publicfinalclassString

implementsjava.io.Serializable, Comparable, CharSequence {

java.io.Serializable

这个序列化接口没有任何方法和域，仅用于标识序列化的语意。

Comparable

这个接口只有一个compareTo(T 0)接口，用于对两个实例化对象比较大小。

CharSequence

这个接口是一个只读的字符序列。包括length(), charAt(int index), subSequence(int start, int end)这几个API接口，值得一提的是，StringBuffer和StringBuild也是实现了改接口。

二：主要变量。

/**The value is used for character storage.*/

privatefinalcharvalue[];

/**Cache the hash code for the string*/

privateinthash;//Default to 0

public static final Comparator CASE_INSENSITIVE_ORDER

= new CaseInsensitiveComparator();

可以看到，value[]是存储String的内容的，即当使用String str = "abc";的时候，本质上，"abc"是存储在一个char类型的数组中的。

而hash是String实例化的hashcode的一个缓存。因为String经常被用于比较，比如在HashMap中。如果每次进行比较都重新计算hashcode的值的话，那无疑是比较麻烦的，而保存一个hashcode的缓存无疑能优化这样的操作。

最后，这个CASE_INSENSITIVE_ORDER在下面内部类中会说到，其根本就是持有一个静态内部类，用于忽略大小写得比较两个字符串。

三：内部类。

再String只有一个内部类，那就是

privatestaticclassCaseInsensitiveComparator

implementsComparator, java.io.Serializable {

//use serialVersionUID from JDK 1.2.2 for interoperability

privatestaticfinallongserialVersionUID = 8575799808933029326L;

publicintcompare(String s1, String s2) {

intn1 =s1.length();

intn2 =s2.length();

intmin =Math.min(n1, n2);

for(inti = 0; i < min; i++) {

charc1 =s1.charAt(i);

charc2 =s2.charAt(i);

if(c1 !=c2) {

c1=Character.toUpperCase(c1);

c2=Character.toUpperCase(c2);

if(c1 !=c2) {

c1=Character.toLowerCase(c1);

c2=Character.toLowerCase(c2);

if(c1 !=c2) {

//No overflow because of numeric promotion

returnc1 -c2;

}

returnn1 -n2;

}

/**Replaces the de-serialized object.*/

privateObject readResolve() {returnCASE_INSENSITIVE_ORDER; }

}

这里有一个疑惑，在String中已经有了一个compareTo的方法，为什么还要有一个CaseInsensitiveComparator的内部静态类呢？

其实这一切都是为了代码复用。

首先看一下这个类就会发现，其实这个比较和compareTo方法也是有差别的，这个方法在比较时是忽略大小写的。

而且这是一个单例，可以简单得用它来比较两个String，因为String类提供一个变量：CASE_INSENSITIVE_ORDER 来持有这个内部类，这样当要比较两个String时可以通过这个变量来调用。

其次，可以看到String类中提供的compareToIgnoreCase方法其实就是调用这个内部类里面的方法实现的。这就是代码复用的一个例子。

四：方法。

首先是一系列的初始化方法。

publicString() {

this.value = "".value;

}

String支持多种初始化方法，包括接收String，char[],byte[],StringBuffer等多种参数类型的初始化方法。但本质上，其实就是将接收到的参数传递给全局变量value[]。

publicintlength() {

returnvalue.length;

}

publicbooleanisEmpty() {

returnvalue.length == 0;

}

publiccharcharAt(intindex) {

if((index < 0) || (index >=value.length)) {

thrownewStringIndexOutOfBoundsException(index);

}

returnvalue[index];

}

知道了String其实内部是通过char[]实现的，那么就不难发现length()，isEmpty()，charAt()这些方法其实就是在内部调用数组的方法。

//返回指定索引的代码点

publicintcodePointAt(intindex) {

if((index < 0) || (index >=value.length)) {

thrownewStringIndexOutOfBoundsException(index);

}

returnCharacter.codePointAtImpl(value, index, value.length);

}

//返回指定索引前一个代码点

publicintcodePointBefore(intindex) {

inti = index - 1;

if((i < 0) || (i >=value.length)) {

thrownewStringIndexOutOfBoundsException(index);

}

returnCharacter.codePointBeforeImpl(value, index, 0);

}

//返回指定起始到结束段内字符个数

publicintcodePointCount(intbeginIndex,intendIndex) {

if(beginIndex < 0 || endIndex > value.length || beginIndex >endIndex) {

thrownewIndexOutOfBoundsException();

}

returnCharacter.codePointCountImpl(value, beginIndex, endIndex -beginIndex);

}

//返回指定索引加上codepointOffset后得到的索引值

publicintoffsetByCodePoints(intindex,intcodePointOffset) {

if(index < 0 || index >value.length) {

thrownewIndexOutOfBoundsException();

}

returnCharacter.offsetByCodePointsImpl(value, 0, value.length,

index, codePointOffset);

}

这几个函数用得比较少，并且可以看到其本质上都是用Character这个类的一些静态方法来实现。这些功能在平常并不经常使用，个人认为，如果使用的话那应该是在对未知字符串进行处理，且重点在异常处理上。

这里说明一下，16 位unicode编码的所有 65，536 个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是，Unicode 标准已扩展到包含多达 1，112，064 个字符。那些超出原来的16 位限制的字符被称作增补字符。Java的char类型是固定16bits的。代码点在U+0000 — U+FFFF之内到是可以用一个char完整的表示出一个字符。但代码点在U+FFFF之外的，一个char无论如何无法表示一个完整字符。这样用char类型来获取字符串中的那些代码点在U+FFFF之外的字符就会出现问题。

增补字符是代码点在 U+10000 至 U+10FFFF 范围之间的字符，也就是那些使用原始的 Unicode 的 16 位设计无法表示的字符。从 U+0000 至 U+FFFF 之间的字符集有时候被称为基本多语言面（BMP UBasic Multilingual Plane ）。因此，每一个 Unicode 字符要么属于 BMP，要么属于增补字符。

//将字符串复制到dst数组中，复制到dst数组中的起始位置可以指定。值得注意的是，该方法并没有检测复制到dst数组后是否越界。

voidgetChars(chardst[],intdstBegin) {

System.arraycopy(value,, dst, dstBegin, value.length);

}

publicvoidgetChars(intsrcBegin,intsrcEnd,chardst[],intdstBegin) {

if(srcBegin < 0) {

thrownewStringIndexOutOfBoundsException(srcBegin);

}

if(srcEnd >value.length) {

thrownewStringIndexOutOfBoundsException(srcEnd);

}

if(srcBegin >srcEnd) {

thrownewStringIndexOutOfBoundsException(srcEnd -srcBegin);

}

System.arraycopy(value, srcBegin, dst, dstBegin, srcEnd-srcBegin);

}

可以看到，这个两个重载方法本质上都是调用System.arraycopy()这个函数，包括在jdk很多其他源码中都是这样，比如ThreadPoolExcuter，看似有很多个重载，其实本质上都是调用同样的一个函数，只是会给你不同的默认初始值。

//获取当前字符串的二进制

publicvoidgetBytes(intsrcBegin,intsrcEnd,bytedst[],intdstBegin) {

if(srcBegin < 0) {

thrownewStringIndexOutOfBoundsException(srcBegin);

}

if(srcEnd >value.length) {

thrownewStringIndexOutOfBoundsException(srcEnd);

}

if(srcBegin >srcEnd) {

thrownewStringIndexOutOfBoundsException(srcEnd -srcBegin);

}

Objects.requireNonNull(dst);

intj =dstBegin;

intn =srcEnd;

inti =srcBegin;

char[] val = value;/*avoid getfield opcode*/

while(i

dst[j++] = (byte)val[i++];

}

publicbyte[] getBytes(String charsetName)

throwsUnsupportedEncodingException {

if(charsetName ==null)thrownewNullPointerException();

returnStringCoding.encode(charsetName, value, 0, value.length);

}

public byte[] getBytes() {

return StringCoding.encode(value, 0, value.length);

}

将String字符串转成二进制的几种方式，可以指定byte数组，也能让其返回一个byte数组。本质上，其实都是调用了StringCoding.encode()这个静态方法。

publicbooleanequals(Object anObject) {

if(this==anObject) {

returntrue;

}

if(anObjectinstanceofString) {

String anotherString=(String)anObject;

intn =value.length;

if(n ==anotherString.value.length) {

charv1[] =value;

charv2[] =anotherString.value;

inti = 0;

while(n-- != 0) {

if(v1[i] !=v2[i])

returnfalse;

i++;

}

returntrue;

}

returnfalse;

}

publicinthashCode() {

inth =hash;

if(h == 0 && value.length > 0) {

charval[] =value;

for(inti = 0; i < value.length; i++) {

h= 31 * h +val[i];

}

hash=h;

}

returnh;

}

hashCode()和equals()两个方法比较重要且有所关系就放一起了，equals()是string能成为广泛用于Map[key,value]中key的关键所在。

此外除equals()外，还有只比较内容的contentEquals();

publicbooleancontentEquals(CharSequencecs) {

//Argument is a StringBuffer, StringBuilder

if(csinstanceofAbstractStringBuilder) {

if(csinstanceofStringBuffer) {

synchronized(cs) {

returnnonSyncContentEquals((AbstractStringBuilder)cs);

}

}else{

returnnonSyncContentEquals((AbstractStringBuilder)cs);

}

//Argument is a String

if(csinstanceofString) {

returnequals(cs);

}

//Argument is a generic CharSequence

charv1[] =value;

intn =v1.length;

if(n !=cs.length()) {

returnfalse;

}

for(inti = 0; i < n; i++) {

if(v1[i] !=cs.charAt(i)) {

returnfalse;

}

returntrue;

}

这个主要是用来比较String和StringBuffer或者StringBuild的内容是否一样。可以看到传入参数是CharSequence ，这也说明了StringBuffer和StringBuild同样是实现了CharSequence。源码中先判断参数是从哪一个类实例化来的，再根据不同的情况采用不同的方案，不过其实大体都是采用上面那个for循环的方式来进行判断两字符串是否内容相同。

这个就是String对Comparable接口中方法的实现了。其核心就是那个while循环，通过从第一个开始比较每一个字符，当遇到第一个较小的字符时，判定该字符串小。

但还有一种是在较小长度的字符粗每个字符都和另一个字符串的每个字符相等，那么字符串长度较大的较大。

publicintcompareToIgnoreCase(String str) {

returnCASE_INSENSITIVE_ORDER.compare(this, str);

}

这个也是比较字符串大小，规则和上面那个比较方法基本相同，差别在于这个方法忽略大小写。可以看到这是通过一个String 内部一个static的内部类实现的，那么为什么还要特地写一个内部类呢，这样其实就是为了代码复用，这样在其他情况下也可以使用这个static内部类。

publicbooleanregionMatches(inttoffset, String other,intooffset,

intlen) {

charta[] =value;

intto =toffset;

charpa[] =other.value;

intpo =ooffset;

//Note: toffset, ooffset, or len might be near -1>>>1.

if((ooffset < 0) || (toffset < 0)

|| (toffset > (long)value.length -len)

|| (ooffset > (long)other.value.length -len)) {

returnfalse;

}

while(len-- > 0) {

if(ta[to++] != pa[po++]) {

returnfalse;

}

returntrue;

}

比较该字符串和其他一个字符串从分别指定地点开始的n个字符是否相等。看代码可知道，其原理还是通过一个while去循环对应的比较区域进行判断，但在比较之前会做判定，判定给定参数是否越界。

publicbooleanstartsWith(String prefix,inttoffset) {

charta[] =value;

intto =toffset;

charpa[] =prefix.value;

intpo = 0;

intpc =prefix.value.length;

//Note: toffset might be near -1>>>1.

if((toffset < 0) || (toffset > value.length -pc)) {

returnfalse;

}

while(--pc >= 0) {

if(ta[to++] != pa[po++]) {

returnfalse;

}

returntrue;

}

判断当前字符串是否以某一段其他字符串开始的，和其他字符串比较方法一样，其实就是通过一个while来循环比较。

publicintindexOf(intch,intfromIndex) {

finalintmax =value.length;

if(fromIndex < 0) {

fromIndex= 0;

}elseif(fromIndex >=max) {

//Note: fromIndex might be near -1>>>1.

return-1;

}

if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {

//handle most cases here (ch is a BMP code point or a

//negative value (invalid code point))

finalchar[] value =this.value;

for(inti = fromIndex; i < max; i++) {

if(value[i] ==ch) {

returni;

}

return-1;

}else{

returnindexOfSupplementary(ch, fromIndex);

}

publicintindexOf(intch) {

returnindexOf(ch, 0);

}

可以看到这里在if中有一句

ch < Character.MIN_SUPPLEMENTARY_CODE_POINT

而在Character中看到

public static final int MIN_SUPPLEMENTARY_CODE_POINT = 0x010000;

这表明在java中char存储的值通常都是比ox010000小的，就是BMP类型的字符。

而当比这个值大的时候，就是增补字符了，那么会调用Character先判断是否是有效的字符，再进一步处理。

publicintlastIndexOf(intch,intfromIndex) {

if(ch

//handle most cases here (ch is a BMP code point or a

//negative value (invalid code point))

finalchar[] value =this.value;

inti = Math.min(fromIndex, value.length - 1);

for(; i >= 0; i--) {

if(value[i] ==ch) {

returni;

}

return-1;

}else{

returnlastIndexOfSupplementary(ch, fromIndex);

}

和indexOf基本一致，只是顺序反过来。

staticintindexOf(char[] source,intsourceOffset,intsourceCount,

char[] target,inttargetOffset,inttargetCount,

intfromIndex) {

if(fromIndex >=sourceCount) {

return(targetCount == 0 ? sourceCount : -1);

}

if(fromIndex < 0) {

fromIndex= 0;

}

if(targetCount == 0) {

returnfromIndex;

}

charfirst =target[targetOffset];

intmax = sourceOffset + (sourceCount -targetCount);

for(inti = sourceOffset + fromIndex; i

/*Look for first character.*/

if(source[i] !=first) {

while(++i

}

/*Found first character, now look at the rest of v2*/

if(i

intj = i + 1;

intend = j + targetCount - 1;

for(intk = targetOffset + 1; j < end &&source[j]

== target[k]; j++, k++);

if(j ==end) {

/*Found whole string.*/

returni -sourceOffset;

}

return-1;

}

这个是上面indexOf的一个重载，主要是实现找到某个子串在当前字符串的起始位置，若没找到，则返回-1。

大致说下这里的实现思路：先是进行一系列的初始判定，比如子串长度不能大于当前字符串。然后在当前字符串中找到子串的第一个字符的位置 i ，从这个位置开始，和子串每一个字符比较。若完全匹配，则返回结果，如果在这个过程中，某个字符不匹配，则从 i+1 的位置开始继续寻找子串第一个字符的位置，后继续比较。

publicString substring(intbeginIndex) {

if(beginIndex < 0) {

thrownewStringIndexOutOfBoundsException(beginIndex);

}

intsubLen = value.length -beginIndex;

if(subLen < 0) {

thrownewStringIndexOutOfBoundsException(subLen);

}

return(beginIndex == 0) ?this:newString(value, beginIndex, subLen);

}

这个方法可以返回字符串中一个子串，看最后一行可以发现，其实就是指定头尾，然后构造一个新的字符串。

publicString concat(String str) {

intotherLen =str.length();

if(otherLen == 0) {

returnthis;

}

intlen =value.length;

charbuf[] = Arrays.copyOf(value, len +otherLen);

str.getChars(buf, len);

returnnewString(buf,true);

}

concat的作用是将str拼接到当前字符串后面，通过代码也可以看出其实就是建一个新的字符串。

publicString replace(charoldChar,charnewChar) {

if(oldChar !=newChar) {

intlen =value.length;

inti = -1;

char[] val = value;/*avoid getfield opcode*/

while(++i

if(val[i] ==oldChar) {

break;

}

if(i

charbuf[] =newchar[len];

for(intj = 0; j < i; j++) {

buf[j]=val[j];

}

while(i

charc =val[i];

buf[i]= (c == oldChar) ?newChar : c;

i++;

}

returnnewString(buf,true);

}

returnthis;

}

替换操作，主要是将原来字符串中的oldChar全部替换成newChar。看这里实现，主要是先找到第一个所要替换的字符串的位置 i ，将i之前的字符直接复制到一个新char数组。然后从 i 开始再对每一个字符进行判断是不是所要替换的字符。

publicbooleanmatches(String regex) {

returnPattern.matches(regex,this);

}

publicString replaceFirst(String regex, String replacement) {

returnPattern.compile(regex).matcher(this).replaceFirst(replacement);

}

publicString replaceAll(String regex, String replacement) {

returnPattern.compile(regex).matcher(this).replaceAll(replacement);

}

publicString replace(CharSequence target, CharSequence replacement) {

returnPattern.compile(target.toString(), Pattern.LITERAL).matcher(

this).replaceAll(Matcher.quoteReplacement(replacement.toString()));

}

这几个方法都是使用了正则的方式来进行处理的。包括最后一个虽然参数不用提供正则规则，但内部其实也是使用了Pattern类的正则操作。

publicString[] split(String regex,intlimit) {

/*fastpath if the regex is a

(1)one-char String and this character is not one of the

RegEx's meta characters ".$|()[{^?*+\\", or

(2)two-char String and the first char is the backslash and

the second is not the ascii digit or ascii letter.

charch = 0;

if(((regex.value.length == 1 &&

".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||

(regex.length()== 2 &&

regex.charAt(0) == '\\' &&

(((ch= regex.charAt(1))-'0')|('9'-ch)) < 0 &&

((ch-'a')|('z'-ch)) < 0 &&

((ch-'A')|('Z'-ch)) < 0)) &&

(ch< Character.MIN_HIGH_SURROGATE ||

ch>Character.MAX_LOW_SURROGATE))

{

intoff = 0;

intnext = 0;

booleanlimited = limit > 0;

ArrayList list =newArrayList();

while((next = indexOf(ch, off)) != -1) {

if(!limited || list.size() < limit - 1) {

list.add(substring(off, next));

off= next + 1;

}else{//last one

//assert (list.size() == limit - 1);

list.add(substring(off, value.length));

off=value.length;

break;

}

//If no match was found, return this

if(off == 0)

returnnewString[]{this};

//Add remaining segment

if(!limited || list.size()

list.add(substring(off, value.length));

//Construct result

intresultSize =list.size();

if(limit == 0) {

while(resultSize > 0 && list.get(resultSize - 1).length() == 0) {

resultSize--;

}

String[] result=newString[resultSize];

returnlist.subList(0, resultSize).toArray(result);

}

returnPattern.compile(regex).split(this, limit);

}

这个方法看起来比较复杂，但其实我们一般都不会用到那一大串的内容，一般我们用到最后那一句return Pattern.compile(regex).split(this, limit); 即同样是使用Pattern的正则方式去解析并拆分成字符串数组。

那么进到那些复杂的代码里面需要什么条件呢，看那个if：

1. 如果regex只有一位，且不为列出的特殊字符；

2.如regex有两位，第一位为转义字符且第二位不是数字或字母，“|”表示或，即只要ch小于0或者大于9任一成立，小于a或者大于z任一成立，小于A或大于Z任一成立

3.第三个是不属于utf-16之间的字符

其中的关系为( (1 || 2) && 3 )，光看第三点就知道这是为了应对特殊情况的。其实也就是使用一个ArrayList存放每一段找到分割点的字符串，不断循环。

publicString trim() {

intlen =value.length;

intst = 0;

char[] val = value;/*avoid getfield opcode*/

while((st < len) && (val[st]

st++;

}

while((st < len) && (val[len - 1]

len--;

}

return((st > 0) || (len < value.length)) ? substring(st, len) :this;

}

这个函数平时用的应该比较多，删除字符串前后的空格，原理是通过找出前后第一个不是空格的字符串，返回原字符串的该子串。

总结：

在String中，其实最底层的实现就是通过一个final char value[] 来保存String字符串的，抓住这一点，其实很多设计方法，方法的实现方式就显而易见了

发表于: 2020-07-292020-07-29 09:23:02
原文链接：https://kuaibao.qq.com/s/20200729A05Y2C00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

源码阅读String-JAVA成长之路

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐