编译器原理：代码是怎么变成可执行文件的

核心要点

上周我帮朋友调试一个 C 语言程序，他写了个简单的 hello world，却怎么也编译不过。看着屏幕上的 error 信息，我突然意识到很多程序员其实并不清楚代码是怎么变成可执行文件的。

info

很多人以为 #include 就像复制粘贴，但它其实是预处理器的工作。预处理器会：

最终会生成一个没有预处理指令的临时文件，通常以 .i 结尾。

接下来是词法分析阶段，编译器会把代码分解成一个个 Token（标记）。比如：

1
2
3

int main() {
    return 0;
}

会被拆成：int、main、(、)、{、return、0、;、} 这些 Token。这就像我们读书时把句子拆成单词一样。

词法分析完成后，编译器会进行语法分析，根据编程语言的语法规则构建抽象语法树（AST）。这就像我们理解句子结构一样：主语、谓语、宾语。

如果代码语法有误，比如少了个分号或者括号不匹配，编译器就会在这个阶段报错。

语法分析通过后，编译器会把抽象语法树转换成汇编语言。汇编语言是机器语言的助记符，比如：

1 2	movl $0, %eax ret

表示把 0 放到 eax 寄存器，然后返回。

最后一步是链接，由链接器完成。链接器会：

info

虽然现代编译器已经非常复杂，但核心过程还是这几个阶段。理解编译器原理不仅能帮你更好地调试代码，还能让你写出更高效的程序。

下次当你编译程序时，不妨想想它经历了怎样的旅程。