本文部分内容节选自《Java并发编程的艺术》

🚀 基础(上) → 🚀 基础(中) → 🚀基础(下) → 🤩集合(上) → 🤩集合(下) → 🤗JVM专题1 → 🤗JVM专题2 → 🤗JVM专题3 → 🤗JVM专题4 →😋JUC专题1 → 😋JUC专题2

volatile 的应用

volatile 是轻量级的 synchronized, 它在多处理器开发中保证了共享变量的 “可见性”. 可见性的意思是当一个线程修改一个共享变量时, 另外一个线程能读到这个修改的值. 如果 volatile变量修饰符使用恰当的话, 它比 synchronized 的使用和执行成本更低, 因为它不会引起线程上下文切换和调度

volatile 的定义和实现原理

Java 语言规范中对 volatile 的定义如下: Java 编程语言允许线程访问共享变量, 为了保证共享变量能被准确和一致地更新, 线程应该确保通过排他锁单独获得这个变量 . 如果一个变量被声明为 volatile, 那么 Java 线程内存模型保证所有线程看到这个变量的值是一致的

volatile 的两条实现原则

  1. Lock前缀指令会引起处理器缓存写回到内存 .
  2. 一个处理器缓存回写到内存会导致其他处理器的缓存无效 .

volatile 的使用优化

JDK7的并发包中新增了一个队列集合类 LinkedTransferQueue , 它在使用 volatile 变量时, 通过一种追加字节的方式来优化队列出队和入队的性能. LinkedTransferQueue的代码如下

private transient final PaddedAtomicReference<QNode> head;
private transient final PaddedAtomicReference<QNode> tail;

static final class PaddedAtomicReference<T> extends AtomicReference<T> {
Object p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pa, pb, pc, pd, pe;
PaddedAtomicReference(T r) {
super(r);
}
}

public class AtomicReference<V> implements java.io.Serializable {
private volatile V value;
// 省略以下代码
}

为什么追加字节能优化性能? 先看看 LinkedTransferQueue 这个类, 它使用一个内部类类型定义了队列的头节点和尾节点, 而内部类 PaddedAtomicReference 相对于父类 AtomicReference 只做了一件事情, 就是将共享变量追加到64字节.

为什么追加到64字节能提高并发编程的效率? 因为对于三级缓存的缓存行为64字节宽的CPU而言, 如果队列的头节点和尾节点都不足64字节, 处理器会将它们都读到同一个缓存行中, 在多处理器下每个处理器都会缓存同样的头, 尾节点, 当一个处理器试图修改头节点时, 会把整个缓存行锁定, 在缓存一致性机制的作用下, 其他处理器就不能访问自己缓存行下的尾节点, 而队列的入队和出队需要不停修改头节点和尾节点, 在多处理器环境下将会严重影响到队列的入队和出队效率. 使用64字节填满高速缓存的缓存行, 避免头节点和尾节点都加载到同一个缓存行, 使头尾节点修改时不会相互锁定

是否在使用 volatile 变量时都需要追加到64字节?

并非如此, 在两种场景下不应该使用这种模式

  • 缓存行非64字节宽的处理器
  • 共享变量不会被频繁地写

synchronized 的实现原理和应用

synchronized实现同步的基础: Java中的每个对象都能作为锁

  • 对于普通同步方法, 锁是当前实例对象
  • 对于静态同步方法, 锁是当前类的 Class 对象
  • 对于同步方法块, 锁是 synchronized 括号中配置的对象

Java 对象头

synchronized用的锁是存在 Java 对象头的, 如果对象是数组类型, 则虚拟机用3个字宽存储对象头, 如果对象是非数组类型, 则用2字宽存储对象头. 在32位虚拟机中, 1字宽等于4字节, 即32bit

Java 对象头中的 Mark Word里默认存储对象的 HashCode, 分代年龄和锁标记位. 32位JVM的 Mark Word的默认存储结构如表所示

锁状态25bit4bit1bit是否是偏向锁2bit锁标志位
无锁状态对象的hashCode对象分代年龄001

在运行期间, Mark Word里存储的数据会随着锁标志位的变化而变化. Mark Word可能变化为以下 4 种数据

锁的升级与对比

在 JDK1.6 中, 锁一共有 4 种形态, 级别由低到高依次是: 无锁状态, 偏向锁状态, 轻量级锁状态, 重量级锁状态

锁可以升级但不能降级, 意味着偏向锁升级为轻量级锁之后不能再降级为偏向锁. 这种锁升级却不能降级的策略目的是为了提高获得锁和释放锁的效率

  1. 偏向锁

当一个线程访问同步块并获得锁时, 会在对象头和栈帧的锁记录中存储锁偏向的线程ID, 以后该线程在进入和退出同步块时不需要进行CAS操作来加锁和解锁, 只需要简单地测试对象头的Mark Word中是否存储了指向当前线程的偏向锁. 如果测试成功, 表示线程已经获得了锁, 如果测试失败, 则需要再测试一下Mark Word中偏向锁的标识是否设置为1: 如果没有设置, 则使用CAS竞争锁, 如果设置了, 则尝试使用CAS将对象头的偏向锁指向当前线程

(1) 偏向锁的撤销

只有当其他线程试图竞争偏向锁时, 持有偏向锁的线程才会释放锁

偏向锁的撤销, 首先要暂停拥有偏向锁的线程, 然后检查持有偏向锁的线程是否活着, 如果线程处于不活动状态, 则将对象头设置成无锁状态; 如果线程仍然或者, 拥有偏向锁的栈会被执行, 遍历偏向对象的锁记录, 栈中的锁记录和对象头的 Mark Word 要么重新偏向于其他线程, 要么恢复到无锁或者标记对象不适合作为偏向锁, 最后唤醒暂停的线程

(2) 关闭偏向锁

Java6 和 Java7 默认启用了偏向锁, 关闭可以使用参数 -XX:BiasedLockingStartupDelay=0

  1. 轻量级锁

(1) 轻量级锁加锁

线程在执行同步代码块之前, JVM会在当前线程的栈帧中创建用于存储锁记录的空间, 并将对象头中的 Mark Word复制到锁记录中. 然后线程尝试使用 CAS 将对象头中的 Mark Word 替换为指向锁记录的指针, 如果成功, 当前线程获得锁, 如果失败, 表示其他线程竞争锁, 当前线程就会通过自旋来获得锁

(2) 轻量级锁解锁

轻量级锁解锁时, 会使用原子的 CAS 操作将 Displaced Mark Word 替换回到对象头, 如果成功, 则表示没有竞争发生, 如果失败, 则表示锁存在竞争, 锁会膨胀为重量级锁

因为自旋会消耗CPU, 为了避免无用的自旋, 当锁升级到重量级锁之后, 就不会再恢复到轻量级锁状态了. 其他线程试图获取这个锁时都会被阻塞

  1. 锁的优缺点对比
优点缺点适用场景
偏向锁加锁和解锁不需要额外的消耗, 和执行非同步方法相比仅存在纳秒级的差距如果线程间存在锁竞争, 会带来额外的锁撤销的消耗适用于只有一个线程访问同步块场景
轻量级锁竞争的线程不会阻塞, 提高了程序的响应速度如果始终得不到锁竞争的线程, 使用自旋会消耗CPU追求响应时间, 同步块执行速度非常快
重量级锁线程竞争不会使用自旋, 不消耗CPU线程阻塞, 响应时间缓慢追求吞吐量, 同步块执行实际长

原子操作的实现原理

原子操作意为 “不可被中断的一个或一系列操作”

在 Java 中 通过 CAS循环 的方式实现原子操作

(1) 使用 CAS循环 实现原子操作

自旋CAS实现基本思路就是循环进行CAS操作直到成功为止

使用CAS实现原子操作会带来三大问题: ABA问题 , 循环时间长开销大 , 只能保证一个共享变量的原子操作

  1. ABA问题

因为 CAS需要在操作值的时候, 检查值是否变化, 如果没有变化就更新, 但是如果一个值原来是 A, 变成了B, 又变回了A, 那么使用CAS进行检查时就会发现值没有变化, 但实际上已经发生过变化了. ABA问题的解决方案是使用版本号, 每次变量更新就把版本号加1.

  1. 循环时间长开销大

自旋CAS如果长时间不成功, 会给CPU带来非常大的执行开销. 如果JVM能支持处理器提供的pause指令, 那么效率会有一定的提升

  1. 只能保证一个共享变量的原子操作

当对一个共享变量执行操作时, 我们可以使用循环CAS的方式来保证原子操作, 但是对多个共享变量进行操作时, 循环CAS就无法保证操作的原子性, 这时候就可以用锁

(2) 使用锁机制实现原子操作

锁机制保证了只有获得锁的线程才能操作锁定的内存区域. JVM内部实现了很多锁, 有偏向锁, 轻量级锁和互斥锁, 但是除了偏向锁, 其他实现锁的方式都使用了循环CAS: 当一个线程想进入同步块时使用循环CAS来获取锁, 当它想退出同步块使用循环CAS释放锁