玉骨西风,恨最恨、闲却新凉时节。

——周密《玉京秋》

JVM之StringTable

1. String的基本特性

  • String:字符串,使用一对 ”” 引起来表示。

    • ~~~java
      String s1 = “justweb” ; // 字面量的定义方式
      String s2 = new String(“jianwei”);
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      51
      52
      53
      54
      55
      56
      57
      58
      59
      60
      61
      62
      63
      64
      65
      66
      67
      68
      69
      70
      71
      72
      73
      74
      75
      76
      77
      78
      79
      80
      81
      82
      83
      84
      85
      86
      87
      88
      89
      90
      91
      92
      93
      94
      95
      96
      97
      98
      99
      100
      101
      102
      103
      104
      105
      106
      107
      108
      109
      110
      111
      112
      113
      114
      115
      116
      117
      118
      119
      120
      121
      122
      123
      124
      125
      126
      127
      128
      129
      130
      131
      132
      133
      134
      135
      136
      137
      138
      139
      140
      141
      142
      143
      144
      145
      146
      147
      148
      149
      150
      151
      152
      153
      154
      155
      156
      157
      158
      159
      160
      161
      162
      163
      164
      165
      166
      167
      168
      169
      170
      171
      172
      173
      174
      175
      176
      177
      178
      179
      180
      181
      182
      183
      184
      185
      186
      187
      188
      189
      190
      191
      192
      193
      194
      195
      196
      197
      198
      199
      200
      201
      202
      203
      204
      205
      206
      207
      208
      209
      210
      211
      212
      213
      214
      215
      216
      217
      218
      219
      220
      221
      222
      223
      224
      225
      226
      227
      228
      229
      230
      231
      232
      233
      234
      235
      236
      237
      238
      239
      240
      241
      242
      243
      244
      245
      246
      247
      248
      249
      250
      251
      252
      253
      254
      255
      256
      257
      258
      259
      260
      261
      262
      263
      264
      265
      266
      267
      268
      269
      270
      271
      272
      273
      274
      275
      276
      277
      278
      279
      280
      281
      282
      283
      284
      285
      286
      287
      288
      289
      290
      291
      292
      293
      294
      295
      296
      297
      298
      299
      300
      301
      302
      303
      304
      305
      306
      307
      308
      309
      310
      311
      312
      313
      314
      315
      316
      317
      318
      319
      320
      321
      322
      323
      324
      325
      326
      327
      328
      329
      330
      331
      332
      333
      334
      335
      336
      337
      338
      339
      340
      341
      342
      343
      344
      345
      346
      347
      348
      349
      350

      - string声明为final的,不可被继承。

      - String实现了Serializable接口:表示字符串是支持序列化的。

      - 实现了Comparable接口:表示string可以比较大小。

      - `String在jdk8及以前内部定义了final char[] value用于存储字符串数据。JDK9时改为byte[]`


      #### 1.1 为什么JDK9改变了结构?

      1. String类的当前实现将字符存储在char数组中,每个字符使用两个字节(16位)。从许多不同的应用程序收集的数据表明,字符串是堆使用的主要组成部分,而且,`大多数字符串对象只包含拉丁字符。这些字符只需要一个字节的存储空间,因此这些字符串对象的内部char数组中有一半的空间将不会使用。`

      2. 我们建议将`String`类的内部表示形式从UTF-16`char`数组更改为`byte`带有编码标记字段的数组。新`String`类将存储基于字符串内容编码为ISO-8859-1 / Latin-1(每个字符一个字节)或UTF-16(每个字符两个字节)的字符。编码标志将指示使用哪种编码。
      3. [结论:String再也不用char[] 来存储了,改成了byte [] 加上编码标记,节约了一些空间。](http://openjdk.java.net/jeps/254)

      ```java
      // 之前
      private final char value[];

      // 之后
      private final byte[] value
      ```

      同时基于String的数据结构,例如StringBuffer和StringBuilder也同样做了修改。


      #### 1.2 String的不可变性

      String:代表不可变的字符序列。简称:`不可变性。`

      1. 当对字符串重新赋值时,需要重写指定内存区域赋值,不能使用原有的value进行赋值。
      2. 当对现有的字符串进行连接操作时,也需要重新指定内存区域赋值,不能使用原有的value进行赋值。
      3. 当调用string的replace()方法修改指定字符或字符串时,也需要重新指定内存区域赋值,不能使用原有的value进行赋值。

      ==通过字面量的方式(区别于new)给一个字符串赋值,此时的字符串值声明在字符串常量池中。==

      String不可变性代码

      ```java
      /**
      * String的不可变性
      */
      public class StringTest1 {
      public static void main(String[] args) {
      test1();
      test2();
      test3();
      }
      public static void test1() {
      // 字面量定义的方式,“abc”存储在字符串常量池中
      String s1 = "abc";
      String s2 = "abc";
      System.out.println(s1 == s2);// true
      s1 = "hello";
      System.out.println(s1 == s2);// false
      System.out.println(s1);// hello
      System.out.println(s2);// abc
      }

      public static void test2() {
      String s1 = "abc";
      String s2 = "abc";
      // 只要进行了修改,就会重新创建一个对象,这就是不可变性
      s2 += "def";
      System.out.println(s1);// abc
      System.out.println(s2);// abcdef
      }

      public static void test3() {
      String s1 = "abc";
      String s2 = s1.replace('a', 'm');
      System.out.println(s1);// abc
      System.out.println(s2);// mbc
      }
      }
      ```

      ###### String不可变性面试题

      ```java
      public class StringExer {
      String str = new String("good");
      char [] ch = {'t','e','s','t'};

      public void change(String str, char[] ch) {
      str = "test ok";
      ch[0] = 'b';
      }

      public static void main(String[] args) {
      StringExer ex = new StringExer();
      ex.change(ex.str, ex.ch);

      System.out.println(ex.str);// good
      System.out.println(ex.ch);// best
      }
      }
      ```

      #### 1.3 字符串常量池是不会存储相同内容的字符串的

      1. `String的String Pool是一个固定大小的Hashtable,默认值大小长度是1009。如果放进String Pool的String非常多,就会造成Hash冲突严重,从而导致链表会很长,而链表长了后直接会造成的影响就是当调用string.intern()时性能会大幅下降。`
      2. `使用-XX:StringTablesize可设置stringTable的长度`
      3. 在jdk6中stringTable是固定的,就是1009的长度,所以如果常量池中的字符串过多就会导致效率下降很快。stringTablesize设置没有要求。

      4. 在jdk7中,stringTable的长度默认值是60013。
      5. 在JDK8中,StringTable可以设置的最小值为1009。

      ~~~~java
      /**
      * -XX:StringTableSize=1009
      * @author shkstart shkstart@126.com
      * @create 2020 23:53
      */
      public class StringTest2 {
      public static void main(String[] args) {
      //测试StringTableSize参数
      // System.out.println("我来打个酱油");
      // try {
      // Thread.sleep(1000000);
      // } catch (InterruptedException e) {
      // e.printStackTrace();
      // }

      BufferedReader br = null;
      try {
      br = new BufferedReader(new FileReader("words.txt"));
      long start = System.currentTimeMillis();
      String data;
      while((data = br.readLine()) != null){
      data.intern(); //如果字符串常量池中没有对应data的字符串的话,则在常量池中生成
      }

      long end = System.currentTimeMillis();

      System.out.println("花费的时间为:" + (end - start));//1009:143ms 100009:47ms
      } catch (IOException e) {
      e.printStackTrace();
      } finally {
      if(br != null){
      try {
      br.close();
      } catch (IOException e) {
      e.printStackTrace();
      }

      }
      }
      }
      }
      ~~~~

      `产生10万个长度不超过10的字符串,包含a-z,A-Z`

      ```java
      /**
      * 产生10万个长度不超过10的字符串,包含a-z,A-Z
      * @author shkstart shkstart@126.com
      * @create 2020 23:58
      */
      public class GenerateString {
      public static void main(String[] args) throws IOException {
      FileWriter fw = new FileWriter("words.txt");

      for (int i = 0; i < 100000; i++) {
      //1 - 10
      int length = (int)(Math.random() * (10 - 1 + 1) + 1);
      fw.write(getString(length) + "\n");
      }

      fw.close();
      }

      public static String getString(int length){
      String str = "";
      for (int i = 0; i < length; i++) {
      //65 - 90, 97-122
      int num = (int)(Math.random() * (90 - 65 + 1) + 65) + (int)(Math.random() * 2) * 32;
      str += (char)num;
      }
      return str;
      }
      }
      ```

      ### 2. String的内存分配

      1. `在Java语言中有8种基本数据类型和一种比较特殊的类型String。这些类型为了使它们在运行过程中速度更快、更节省内存,都提供了一种常量池的概念。`
      2. 常量池就类似一个Java系统级别提供的缓存。`8种基本数据类型的常量池都是系统协调的,String类型的常量池比较特殊。它的主要使用方法有两种。`
      - 直接使用双引号声明出来的String对象会直接存储在常量池中,比如:string info="atguigu.com";
      - `如果不是用双引号声明的String对象,可以使用String提供的intern()方法。`
      3. Java 6及以前,字符串常量池存放在永久代。
      4. `Java 7中 Oracle的工程师对字符串池的逻辑做了很大的改变,即将字符串常量池的位置调整到Java堆内。`
      - 所有的字符串都保存在堆(Heap)中,和其他普通对象一样,这样可以让你在进行调优应用时仅需要调整堆大小就可以了。
      - 字符串常量池概念原本使用得比较多,但是这个改动使得我们有足够的理由让我们重新考虑在Java 7中使用string.intern()。

      ![image-20200711093546398](https://oss-blogs.oss-cn-hangzhou.aliyuncs.com/blogs/itbuild/JavaSE-JVM/image-20200711093546398.png)

      ![image-20200711093558709](https://oss-blogs.oss-cn-hangzhou.aliyuncs.com/blogs/itbuild/JavaSE-JVM/image-20200711093558709.png)

      #### 2.1 为什么StringTable从永久代调整到堆中

      `在JDK 7中,interned字符串不再在Java堆的永久代生成中分配,而是在Java堆的主要部分(称为年轻代和年老代)中分配,`与应用程序创建的其他对象一起分配。此更改将导致驻留在主Java堆中的数据更多,驻留在永久代生成中的数据更少,因此可能需要调整堆大小。由于这一变化,大多数应用程序在堆使用方面只会看到相对较小的差异,但加载许多类或大量使用字符串的较大应用程序会出现这种差异。intern()方法会看到更显著的差异。

      - `永久代的默认比较小。`
      - `永久代垃圾回收频率低。`


      ### 3. String的基本操作

      `Java语言规范里要求完全相同的字符串字面量,应该包含同样的Unicode字符序列(包含同一份码点序列的常量),并且必须是指向同一个String类实例。`

      ~~~~java
      /**
      * 证明字符串常量池
      * @author shkstart shkstart@126.com
      * @create 2020 0:49
      */
      public class StringTest4 {
      public static void main(String[] args) {
      System.out.println();//2293
      System.out.println("1");//2294
      System.out.println("2");
      System.out.println("3");
      System.out.println("4");
      System.out.println("5");
      System.out.println("6");
      System.out.println("7");
      System.out.println("8");
      System.out.println("9");
      System.out.println("10");//2303
      // 如下的字符串"1" 到 "10"不会再次加载
      System.out.println("1");//2304
      System.out.println("2");//2304
      System.out.println("3");
      System.out.println("4");
      System.out.println("5");
      System.out.println("6");
      System.out.println("7");
      System.out.println("8");
      System.out.println("9");
      System.out.println("10");//2304
      }
      }
      ~~~~

      ![image-20201022163737909](https://oss-blogs.oss-cn-hangzhou.aliyuncs.com/blogs/itbuild/JavaSE-JVM/image-20201022163737909.png)

      图对应的代码如下:

      ~~~~java
      /**
      * @author shkstart shkstart@126.com
      * @create 2020 0:51
      */
      class Memory {
      public static void main(String[] args) {//line 1
      int i = 1;//line 2
      Object obj = new Object();//line 3
      Memory mem = new Memory();//line 4
      mem.foo(obj);//line 5
      }//line 9

      private void foo(Object param) {//line 6
      String str = param.toString();//line 7
      System.out.println(str);
      }//line 8
      }
      ~~~~

      ### 4. 字符串拼接操作☆

      1. `常量与常量的拼接结果在常量池,原理是编译期优化。`
      2. `常量池中不会存在相同内容的变量。`
      3. `只要其中有一个是变量,结果就在堆中。变量拼接的原理是StringBuilder`
      4. `如果拼接的结果调用intern()方法,则主动将常量池中还没有的字符串对象放入池中,并返回此对象地址。`


      ```java
      @Test
      public void test1(){
      String s1 = "a" + "b" + "c";//编译期优化:等同于"abc"
      String s2 = "abc"; //"abc"一定是放在字符串常量池中,将此地址赋给s2
      /*
      * 最终.java编译成.class,再执行.class
      * String s1 = "abc";
      * String s2 = "abc"
      */
      System.out.println(s1 == s2); //true
      System.out.println(s1.equals(s2)); //true
      }

      @Test
      public void test2(){
      String s1 = "javaEE";
      String s2 = "hadoop";

      String s3 = "javaEEhadoop";
      String s4 = "javaEE" + "hadoop";//编译期优化
      //如果拼接符号的前后出现了变量,则相当于在堆空间中new String(),具体的内容为拼接的结果:javaEEhadoop
      String s5 = s1 + "hadoop";
      String s6 = "javaEE" + s2;
      String s7 = s1 + s2;

      System.out.println(s3 == s4);//true
      System.out.println(s3 == s5);//false
      System.out.println(s3 == s6);//false
      System.out.println(s3 == s7);//false
      System.out.println(s5 == s6);//false
      System.out.println(s5 == s7);//false
      System.out.println(s6 == s7);//false
      //intern():判断字符串常量池中是否存在javaEEhadoop值,如果存在,则返回常量池中javaEEhadoop的地址;
      //如果字符串常量池中不存在javaEEhadoop,则在常量池中加载一份javaEEhadoop,并返回次对象的地址。
      String s8 = s6.intern();
      System.out.println(s3 == s8);//true
      }
      ```

      从上述的结果我们可以知道:

      1. 如果拼接符号的前后出现了变量,则相当于在堆空间中new String(),具体的内容为拼接的结果。

      2. 而调用intern方法,则会判断字符串常量池中是否存在JavaEEhadoop值,如果存在则返回常量池中的值,否者就在常量池中创建


      #### 4.1 底层原理

      拼接操作的底层其实使用了[StringBuilder](https://blog.csdn.net/weixin_45267102/article/details/107348280)


      ~~~java
      @Test
      public void test3(){
      String s1 = "a";
      String s2 = "b";
      String s3 = "ab";
      /*
      如下的s1 + s2 的执行细节:(变量s是我临时定义的)
      ① StringBuilder s = new StringBuilder();
      ② s.append("a")
      ③ s.append("b")
      ④ s.toString() --> 约等于 new String("ab")

      补充:在jdk5.0之后使用的是StringBuilder,在jdk5.0之前使用的是StringBuffer
      */
      String s4 = s1 + s2;//
      System.out.println(s3 == s4);//false
      }
  • 字符串拼接操作不一定使用的是StringBuilder, 如果拼接符号左右两边都是字符串常量或常量引用,则仍然使用编译期优化,即非StringBuilder的方式。
  • ==针对于final修饰类、方法、基本数据类型、引用数据类型的量的结构时,能使用上final的时候建议使用上。==
1
2
3
4
5
6
7
public static void test4() {
final String s1 = "a";
final String s2 = "b";
String s3 = "ab";
String s4 = s1 + s2;
System.out.println(s3 == s4);// true
}

4.2 拼接操作和append性能对比

1
2
3
4
5
6
7
8
9
10
11
12
13
public static void method1(int highLevel) {
String src = "";
for (int i = 0; i < highLevel; i++) {
src += "a"; // 每次循环都会创建一个StringBuilder对象
}
}

public static void method2(int highLevel) {
StringBuilder sb = new StringBuilder();
for (int i = 0; i < highLevel; i++) {
sb.append("a");
}
}
  1. method1耗费的时间:4005ms
  2. method2消耗时间:7ms
  3. 结论:
    • 通过StringBuilder的append()方式添加字符串的效率,要远远高于String的字符串拼接方法。
  4. 好处:
    • StringBuilder的append的方式,自始至终只创建一个StringBuilder的对象。
    • 对于字符串拼接的方式,还需要创建很多StringBuilder对象和 调用toString时候创建的String对象。
    • 内存中由于创建了较多的StringBuilder和String对象,内存占用过大,如果进行GC那么将会耗费更多的时间。
  5. 改进的空间:
    • 我们使用的是StringBuilder的空参构造器,默认的字符串容量是16,然后将原来的字符串拷贝到新的字符串中, 我们也可以默认初始化更大的长度,减少扩容的次数。
    • ==因此在实际开发中,我们能够确定,前前后后需要添加的字符串不高于某个限定值,那么建议使用构造器创建一个阈值的长度。==

5. intern()的使用

1
2
// intern是String的一个native方法,调用的是底层C的方法
public native String intern();
  1. 当调用intern方法时,如果池已经包含与equals(Object)方法确定的相当于此String对象的字符串,则返回来自池的字符串。 否则,此String对象将添加到池中,并返回对此String对象的引用。
  2. 如果不是用双引号声明的String对象,可以使用String提供的intern方法:intern方法会从字符串常量池中查询当前字符串是否存在,若不存在就会将当前字符串放入常量池中。
1
2
// 比如:
String myInfo = new string("I love atguigu").intern();

也就是说,如果在任意字符串上调用String.intern方法,那么其返回结果所指向的那个类实例,必须和直接以常量形式出现的字符串实例完全相同。因此,下列表达式的值必定是true

1
"a"+"b"+"c").intern()=="abc"

通俗点讲,Interned String就是确保字符串在内存里只有一份拷贝,这样可以节约内存空间,加快字符串操作任务的执行速度。注意,这个值会被存放在字符串内部池(String Intern Pool)。

5.1 intern的空间效率测试

我们通过测试一下,使用了intern和不使用的时候,其实相差还挺多的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
/**
* 使用intern()测试执行效率:空间使用上
* @author shkstart shkstart@126.com
* @create 2020 21:17
*/
public class StringIntern2 {
static final int MAX_COUNT = 1000 * 10000;
static final String[] arr = new String[MAX_COUNT];

public static void main(String[] args) {
Integer[] data = new Integer[]{1,2,3,4,5,6,7,8,9,10};

long start = System.currentTimeMillis();
for (int i = 0; i < MAX_COUNT; i++) {
// arr[i] = new String(String.valueOf(data[i % data.length]));//花费的时间为:8625
arr[i] = new String(String.valueOf(data[i % data.length])).intern();//花费的时间为:3317

}
long end = System.currentTimeMillis();
System.out.println("花费的时间为:" + (end - start));

try {
Thread.sleep(1000000);
} catch (InterruptedException e) {
e.printStackTrace();
}
System.gc();
}
}
  1. 未使用intern()
  2. image-20201022170525159
  3. 使用intern()
  4. img
  5. 结论:对于程序中大量使用存在的字符串时,尤其存在很多已经重复的字符串时,使用intern()方法能够节省内存空间。
  6. ==大的网站平台,需要内存中存储大量的字符串。比如社交网站,很多人都存储:北京市、海淀区等信息。这时候如果字符串都调用intern() 方法,就会很明显降低内存的大小。==

5.2 面试题一:new String(“ab”)会创建几个对象

1
2
3
4
5
6
7
8
/**
* new String("ab") 会创建几个对象? 看字节码就知道是2个对象
*/
public class StringNewTest {
public static void main(String[] args) {
String str = new String("ab");
}
}

我们转换成字节码来查看

1
2
3
4
5
6
 0 new #2 <java/lang/String>
3 dup
4 ldc #3 <ab>
6 invokespecial #4 <java/lang/String.<init>>
9 astore_1
10 return

这里面就是两个对象

  • 一个对象是:new关键字在堆空间中创建。
  • 另一个对象:字符串常量池中的对象。

5.3 面试题二:new String(“a”) + new String(“b”) 会创建几个对象☆

1
2
3
4
5
public class StringNewTest {
public static void main(String[] args) {
String str = new String("a") + new String("b");
}
}

对应的字节码文件为

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 0 new #2 <java/lang/StringBuilder>
3 dup
4 invokespecial #3 <java/lang/StringBuilder.<init>>
7 new #4 <java/lang/String>
10 dup
11 ldc #5 <a>
13 invokespecial #6 <java/lang/String.<init>>
16 invokevirtual #7 <java/lang/StringBuilder.append>
19 new #4 <java/lang/String>
22 dup
23 ldc #8 <b>
25 invokespecial #6 <java/lang/String.<init>>
28 invokevirtual #7 <java/lang/StringBuilder.append>
31 invokevirtual #9 <java/lang/StringBuilder.toString>
34 astore_1
35 return

我们创建了6个对象:

1
2
3
4
5
6
7
对象1new StringBuilder()
对象2new String("a")
对象3:常量池的 a
对象4new String("b")
对象5:常量池的 b
对象6:toString中会创建一个 new String("ab")
强调一下,toString()的调用,在字符串常量池中,没有生成"ab"

5.4 intern的使用—JDK6和JDK7☆

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
/**
* 如何保证变量s指向的是字符串常量池中的数据呢?
* 有两种方式:
* 方式一: String s = "shkstart";//字面量定义的方式
* 方式二: 调用intern()
* String s = new String("shkstart").intern();
* String s = new StringBuilder("shkstart").toString().intern();
*/
public class StringIntern {
public static void main(String[] args) {

String s = new String("1");
s.intern();// 调用此方法之前,字符串常量池中已经存在了"1"
String s2 = "1";
//jdk6:false jdk7/8:false
System.out.println(s == s2);

// s3变量记录的地址为:new String("11")
String s3 = new String("1") + new String("1");
//执行完上一行代码以后,字符串常量池中,是否存在"11"呢?答案:不存在!!

// 在字符串常量池中生成"11"。如何理解:jdk6:创建了一个新的对象"11",也就有新的地址。
s3.intern();
// jdk7:此时常量中并没有创建"11",而是创建一个指向堆空间中new String("11")的地址
String s4 = "11";//s4变量记录的地址:使用的是上一行代码代码执行时,在常量池中生成的"11"的地址

//jdk6:false jdk7/8:true
System.out.println(s3 == s4);
}
}
一、扩展☆
1
2
3
4
String s3 = new String("1") + new String("1");
String s4 = "11"; // 在常量池中生成的字符串
s3.intern(); // 然后s3就会从常量池中找,发现有了,就什么事情都不做
System.out.println(s3 == s4);// false

我们将 s4的位置向上移动一行,发现变化就会很大,最后得到的是 false

二、总结String的intern()的使用

JDK1.6中,将这个字符串对象尝试放入串池。

  • 如果串池中有,则并不会放入。返回已有的串池中的对象的地址。
  • 如果没有,会把此对象复制一份,放入串池,并返回串池中的对象地址。

JDK1.7起,将这个字符串对象尝试放入串池。

  • 如果串池中有,则并不会放入。返回已有的串池中的对象的地址。
  • 如果没有,则会把对象的引用地址复制一份,放入串池,并返回串池中的引用地址。
三、练习

image-20200711150859709

  • 在JDK6中,在字符串常量池中创建一个字符串 “ab”
  • 在JDK8中,在字符串常量池中没有创建 “ab”,而是将堆中的地址复制到 串池中。

image-20200711151326909

针对下面这题,在JDK6和8中表现的是一样的

image-20200711151433277

6. StringTable的垃圾回收

image-20201022191720168

1
2
3
4
5
6
7
8
9
10
11
/**
* String的垃圾回收
* -Xms15m -Xmx15m -XX:+PrintStringTableStatistics -XX:+PrintGCDetails
*/
public class StringGCTest {
public static void main(String[] args) {
for (int i = 0; i < 100000; i++) {
String.valueOf(i).intern();
}
}
}

7. G1中的String去重操作

注意这里说的重复,指的是在堆中的数据,而不是常量池中的,因为常量池中的本身就不会重复。

7.1 描述

背景:对许多Java应用(有大的也有小的)做的测试得出以下结果:

  • 堆存活数据集合里面string对象占了25%

  • 堆存活数据集合里面重复的string对象有13.5%

  • String对象的平均长度是45

许多大规模的Java应用的瓶颈在于内存,测试表明,在这些类型的应用里面,Java堆中存活的数据集合差不多25%是String对象。更进一步,这里面差不多一半String对象是重复的,重复的意思是说:string1.equals(string2)= true。堆上存在重复的string对象必然是一种内存的浪费。这个项目将在G1垃圾收集器中实现自动持续对重复的string对象进行去重,这样就能避免浪费内存。

7.2 实现

  1. 当垃圾收集器工作的时候,会访问堆上存活的对象。对每一个访问的对象都会检查是否是候选的要去重的string对象。
  2. 如果是,把这个对象的一个引用插入到队列中等待后续的处理。一个去重的线程在后台运行,处理这个队列。处理队列的一个元素意味着从队列删除这个元素,然后尝试去重它引用的string对象。
  3. 使用一个hashtable来记录所有的被string对象使用的不重复的char数组。当去重的时候,会查这个hashtable,来看堆上是否已经存在一个一模一样的char数组。
  4. 如果存在,string对象会被调整引用那个数组,释放对原来的数组的引用,最终会被垃圾收集器回收掉。
  5. 如果查找失败,char数组会被插入到hashtable,这样以后的时候就可以共享这个数组了。

7.3 开启

UsestringDeduplication(bool):开启String去重,默认是不开启的,需要手动开启。

PrintstringDeduplicationStatistics(bool):打印详细的去重统计信息。

StringDeduplicationAgeThreshold(uintx):达到这个年龄的String对象被认为是去重的候选对象。