大多Java程序员知道他们的程序通常不会被编译为本机代码而是被编译为由java虚拟机(JVM)执行的字节码格式然而很少有java程序员曾经看过字节码因为他们的工具不鼓励他们去看大多Java 调试工具不允许单步执行字节码它们要么显示源代码行要么什么也不显示
幸运的是JDK提供了javap一个命令行工具它使得查看字节码很容易让我们看一个范例
public class ByteCodeDemo {
public static void main(String[] args) {
Systemoutprintln(Hello world)
}
}
在编译这个类后你可以用十六进制编辑器打开class文件然后参照虚拟机规范翻译字节码幸运的是有更简单的方法JDK包含一个命令行的反汇编器javap它可以转换字节码为一种可读的助记符形式可以像下面这样通过传递c参数给javap得到字节码列表
javap c ByteCodeDemo
你应该会看到输出类似这样
public class ByteCodeDemo extends javalangObject {
public ByteCodeDemo()
public static void main(javalangString[])
}
Method ByteCodeDemo()
aload_
invokespecial #
return
Method void main(javalangString[])
getstatic #
ldc #
invokevirtual #
return
仅仅从这个短小的列表你可以学到很多字节码的知识从main方法的第一个指令开始
getstatic #
开始的整数是方法中的指令的偏移值因此第一个指令以开始紧随偏移量是指令的助记符(mnemonic)在这个范例中getstatic 指令将一个静态成员压入一个称为操作数堆栈的数据结构后续的指令可以引用这个数据结构中的成员getstatic 指令后是要压入的成员在这个例子中要压入的成员是# 如果你直接检查字节码你会看到成员信息没有直接嵌入指令而是像所有由java类使用的常量那样存储在一个共享池中将成员信息存储在一个常量池中可以减小字节码指令的大小因为指令只需要存储常量池中的一个索引而不是整个常量在这个例子中成员信息位于常量池中的#处常量池中的项目的顺序是和编译器相关的因此在你的环境中看到的可能不是#
分析完第一个指令后很容易猜到其它指令的意思ldc (load constant) 指令将常量Hello World压入操作数栈invokevirtual指令调用println方法它从操作数栈弹出它的两个参数不要忘记一个像println这样的实例方法有两个参数上面的字符串加上隐含的this引用
字节码如何预防内存错误
Java语言经常被吹捧为开发互联网软件的安全的语言表面上和c++如此相似的代码如何体现安全呢?它引入的一个重要的安全概念是防止内存相关的错误计算机罪犯利用内存错误在其它情况下安全的程序中插入自己的恶意的代码Java字节码是第一个可以预防这种攻击的像下面的范例展示的
public float add(float f int n) {
return f + n;
}
如果你将这个方法加入上面的范例中重新编译它然后运行javap你将看到的字节码类似这个
Method float add(float int)
fload_
iload_
if
fadd
freturn
在方法的开始虚拟机将方法的参数放入一个称为局部变量表的数据结构中将像名字暗示的那样局部变量表也包含了你声明的任何局部变量在这个例子中方法以三个局部变量表的项开始这些都是add方法的参数位置保存this引用而位置和分别保存float和int参数
为了实际的操作这些变量它们必须被加载(压入)到操作数栈第一个指令fload_将位置处的float压入操作数栈第二个指令iload_将位置处的int压入操作数栈这些指令的一个引起注意的事情是指令中的i和f前缀这说明Java字节码指令是强类型的如果参数的类型和字节码的类型不匹配VM将该字节码作为不安全的而加以拒绝更好的是字节码被设计为只需在类被加载时执行一次这样的类型安全检查
这个类型安全是如何加强安全的?如果一个攻击者能够欺骗虚拟机将一个int作为一个float或者相反它就可以很容易的以一个预期的的方法破坏计算如果这些计算涉及银行结余那么隐含的安全性是很明显的更危险的是欺骗VM将一个int作为一个Object引用在大多情况下这将导致VM崩溃但是攻击者只需要找到一个漏洞不要忘记攻击者不会手工搜索这个漏洞写出一个程序产生数以亿计的错误字节码的排列是相当容易的这些排列试图找到危害VM的幸运的那个
字节码的另一个内存安全防护是数组操作aastore 和 aaload 字节码操作Java数组并且它们总是检查数组边界如果调用程序越过了数组尾这些字节码将抛出一个ArrayIndexOutOfBoundsException也许所有最重要的检查都使用分支指令例如以if开始的字节码在字节码中分支指令只能转移到同一方法中的其它指令在方法外可以传递的唯一控制是使它返回抛出一个异常或者执行一个invoke指令这不仅关闭了很多攻击同时也防止由于摇蕩引用(dangling reference)或者堆栈沖突而引发的令人厌恶的错误如果你曾经使用系统调试器打开你的程序并定位到代码中的一个随机的位置那么你会很熟悉这些错误
所有这些检查中需要记住的重要的一点是它们是由虚拟机在字节码级进行的而不是仅仅由编译器在源代码级进行的一个例如c++这样的语言的编译器可能在编译时预防上面讨论的某些内存错误但是这些保护只是在源代码级应用操作系统将很乐意加载执行任何机器码无论这些代码是由精细的c++编译器产生的还是心怀恶意的攻击者产生的简单的讲C++仅仅是在源代码级上面向对象而Java的面向对象的特性扩展到编译过的代码级
分析字节码提升代码质量
Java字节码的内存和安全保护无论我们是否注意都是存在地那么我们为什么还费心查看字节码呢?在很多情况下知道编译器如何将你的代码转换为字节码可以帮助你写出更高效的代码而且在某些情况下可以防止不易发觉的错误考虑下面的例子
//返回 str+str 的串连
String concat(String str String str) {
return str + str;
}
//将 str 附加到 str
void concat(StringBuffer str String str) {
strappend(str)
}
猜猜每个方法需要多少个方法调用现在编译这些方法并且运行javap你会得到类似下面的输出
Method javalangString concat(javalangString javalangString)
new #
dup
invokespecial #
aload_
invokevirtual #
aload_
invokevirtual #
invokevirtual #
areturn
Method void concat(javalangStringBuffer javalangString)
aload_
aload_
invokevirtual #
pop
return
concat方法执行了个方法调用s: new invokespecial和三个invokevirtuals这比concat方法执行了更多的工作后者只执行了一个invokevirtual调用大多Java程序员已经得到过警告因为String是不可变的而使用StringBuffer进行字符串连接效率更高使用javap分析这个使得这点变得很生动如果你不能肯定两个语言构造在性能上是否相等你应该使用javap分析字节码然而对justintime (JIT)编译器要小心因为JIT编译器将字节码重新编译为本机代码而能执行一些javap不能揭示的附加优化除非你有你的虚拟机的源代码否则你应该补充你的字节码的基准性能分析
最后的一个范例展示了检查字节码如何帮助防止程序中的错误像下面那样创建两个类确保它们在独立的文件中
public class ChangeALot {
public static final boolean debug=false;
public static boolean log=false;
}
public class EternallyConstant {
public static void main(String [] args) {
Systemoutprintln(EternallyConstant beginning execution)
if (ChangeALotdebug)
Systemoutprintln(Debug mode is on)
if (ChangeALotlog)
Systemoutprintln(Logging mode is on)
}
}
如果你运行EternallyConstant你会得到信息
EternallyConstant beginning execution
现在试着编辑ChangeALot修改debug和log变量的值为true(两个都为true)只重新编译ChangeALot再次运行EternallyConstant你将看到下面的输出
EternallyConstant beginning execution
Logging mode is on
debug变量怎么了?即使你将debug设置为true信息Debug mode is on并没有出现答案在字节码中对 EternallyConstant运行javap你会看到
Method void main(javalangString[])
getstatic #
ldc #
invokevirtual #
getstatic #
ifeq
getstatic #
ldc #
invokevirtual #
return
惊奇吧!在log成员上有一个ifeq检查而代码根本没有检查debug成员因为debug成员被标记为final类型编译器知道debug成员在运行时永远不会改变因此它通过移除if声明进行优化这确实是一个非常有用的优化因为它允许你在程序中嵌入调试代码而在将它设置为false时不用付出运行时的代价不幸的是这个优化能够导致主要的编译时混乱如果你改变一个final成员你必须记住重新编译任何可能引用该成员的类这是因为这个reference可能已经经过优化了Java开发环境不能总是发现这个微妙的相关性一些能导致非常奇怪的错误因此古老的C++格言对于java环境仍然有效When in doubt rebuild all(有疑问重新编译所有的代码)
知道一些字节码的知识对于使用java编程的程序员都是有价值的javap工具使得查看字节码很容易有时候使用javap检查你的代码以期提高性能和捕获特殊的不易察觉的错误时是没有用的