GCC 内联汇编 HOWTO – 麟悦 Linux Joy

v0.1, 01 March 2003.

本 HOWTO 文档将讲解 GCC 提供的内联汇编特性的用途和用法。对于阅读这篇文章，这里只有两个前提要求，很明显，就是 x86 汇编语言和 C 语言的基本认识。

1. 简介

1.1 版权许可

本文档自由共享；你可以重新发布它，并且/或者在遵循自由软件基金会发布的 GNU 通用公共许可证下修改它；也可以是该许可证的版本 2 或者（按照你的需求）更晚的版本。

发布这篇文档是希望它能够帮助别人，但是没有任何担保；甚至不包括可售性和适用于任何特定目的的担保。关于更详细的信息，可以查看 GNU 通用许可证。

1.2 反馈校正

请将反馈和批评一起提交给 Sandeep.S 。我将感谢任何一个指出本文档中错误和不准确之处的人；一被告知，我会马上改正它们。

1.3 致谢

我对提供如此棒的特性的 GNU 人们表示真诚的感谢。感谢 Mr.Pramode C E 所做的所有帮助。感谢在 Govt Engineering College 和 Trichur 的朋友们的精神支持和合作，尤其是 Nisha Kurur 和 Sakeeb S 。感谢在 Gvot Engineering College 和 Trichur 的老师们的合作。

另外，感谢 Phillip , Brennan Underwood 和 [email protected] ；这里的许多东西都厚颜地直接取自他们的工作成果。

2. 概览

在这里，我们将学习 GCC 内联汇编。这里内联（ inline ）表示的是什么呢？

我们可以要求编译器将一个函数的代码插入到调用者代码中函数被实际调用的地方。这样的函数就是内联函数。这听起来和宏差不多？这两者确实有相似之处。

内联函数的优点是什么呢？

这种内联方法可以减少函数调用开销。同时如果所有实参的值为常量，它们的已知值可以在编译期允许简化，因此并非所有的内联函数代码都需要被包含进去。代码大小的影响是不可预测的，这取决于特定的情况。为了声明一个内联函数，我们必须在函数声明中使用 inline 关键字。

现在我们正处于一个猜测内联汇编到底是什么的点上。它只不过是一些写为内联函数的汇编程序。在系统编程上，它们方便、快速并且极其有用。我们主要集中学习（GCC）内联汇编函数的基本格式和用法。为了声明内联汇编函数，我们使用 asm 关键词。

内联汇编之所以重要，主要是因为它可以操作并且使其输出通过 C 变量显示出来。正是因为此能力， “asm” 可以用作汇编指令和包含它的 C 程序之间的接口。

3. GCC 汇编语法

Linux上的 GNU C 编译器 GCC ，使用 AT&T / UNIX 汇编语法。在这里，我们将使用 AT&T 语法进行汇编编码。如果你对 AT&T 语法不熟悉的话，请不要紧张，我会教你的。AT&T 语法和 Intel 语法的差别很大。我会给出主要的区别。

源操作数和目的操作数顺序

AT&T 语法的操作数方向和 Intel 语法的刚好相反。在Intel 语法中，第一操作数为目的操作数，第二操作数为源操作数，然而在 AT&T 语法中，第一操作数为源操作数，第二操作数为目的操作数。也就是说，

Intel 语法中的 Op-code dst src 变为 AT&T 语法中的 Op-code src dst。

寄存器命名

寄存器名称有 % 前缀，即如果必须使用 eax，它应该用作 %eax。

立即数

AT&T 立即数以 $ 为前缀。静态 “C” 变量也使用 $ 前缀。在 Intel 语法中，十六进制常量以 h 为后缀，然而 AT&T 不使用这种语法，这里我们给常量添加前缀 0x。所以，对于十六进制，我们首先看到一个 $，然后是 0x，最后才是常量。

操作数大小

在 AT&T 语法中，存储器操作数的大小取决于操作码名字的最后一个字符。操作码后缀 ’b’ 、’w’、’l’ 分别指明了字节（ byte ）（8位）、字（ word ）（16位）、长型（ long ）（32位）存储器引用。Intel 语法通过给存储器操作数添加 byte ptr、 word ptr 和 dword ptr 前缀来实现这一功能。

因此，Intel的 mov al, byte ptr foo 在 AT&T 语法中为 movb foo, %al。

存储器操作数

在 Intel 语法中，基址寄存器包含在 [ 和 ] 中，然而在 AT&T 中，它们变为 ( 和 )。另外，在 Intel 语法中，间接内存引用为

section:[base + index*scale + disp]，在 AT&T中变为 section:disp(base, index, scale)。

需要牢记的一点是，当一个常量用于 disp 或 scale，不能添加 $ 前缀。

现在我们看到了 Intel 语法和 AT&T 语法之间的一些主要差别。我仅仅写了它们差别的一部分而已。关于更完整的信息，请参考 GNU 汇编文档。现在为了更好地理解，我们可以看一些示例。

+++
|       Intel Code             |      AT&T Code                     |
+++
| mov     eax,1                |  movl    $1,%eax                   |   
| mov     ebx,0ffh             |  movl    $0xff,%ebx                |   
| int     80h                  |  int     $0x80                     |   
| mov     ebx, eax             |  movl    %eax, %ebx                |
| mov     eax,[ecx]            |  movl    (%ecx),%eax               |
| mov     eax,[ebx+3]          |  movl    3(%ebx),%eax              | 
| mov     eax,[ebx+20h]        |  movl    0x20(%ebx),%eax           |
| add     eax,[ebx+ecx*2h]     |  addl    (%ebx,%ecx,0x2),%eax      |
| lea     eax,[ebx+ecx]        |  leal    (%ebx,%ecx),%eax          |
| sub     eax,[ebx+ecx*4h-20h] |  subl    -0x20(%ebx,%ecx,0x4),%eax |
+++

4. 基本内联

基本内联汇编的格式非常直接了当。它的基本格式为

asm("汇编代码");

示例

asm("movl %ecx %eax"); /* 将 ecx 寄存器的内容移至 eax  */
__asm__("movb %bh (%eax)"); /* 将 bh 的一个字节数据 移至 eax 寄存器指向的内存 */

你可能注意到了这里我使用了 asm 和 __asm__。这两者都是有效的。如果关键词 asm 和我们程序的一些标识符冲突了，我们可以使用 __asm__。如果我们的指令多于一条，我们可以每个一行，并用双引号圈起，同时为每条指令添加 ’n’ 和 ’t’ 后缀。这是因为 gcc 将每一条当作字符串发送给 as（GAS）（LCTT 译注： GAS 即 GNU 汇编器），并且通过使用换行符/制表符发送正确格式化后的行给汇编器。

示例

__asm__ ("movl %eax, %ebxnt"
         "movl $56, %esint"
         "movl %ecx, $label(%edx,%ebx,$4)nt"
         "movb %ah, (%ebx)");

如果在代码中，我们涉及到一些寄存器（即改变其内容），但在没有恢复这些变化的情况下从汇编中返回，这将会导致一些意想不到的事情。这是因为 GCC 并不知道寄存器内容的变化，这会导致问题，特别是当编译器做了某些优化。在没有告知 GCC 的情况下，它将会假设一些寄存器存储了一些值——而我们可能已经改变却没有告知 GCC——它会像什么事都没发生一样继续运行（LCTT 译注：什么事都没发生一样是指GCC不会假设寄存器装入的值是有效的，当退出改变了寄存器值的内联汇编后，寄存器的值不会保存到相应的变量或内存空间）。我们所可以做的是使用那些没有副作用的指令，或者当我们退出时恢复这些寄存器，要不就等着程序崩溃吧。这是为什么我们需要一些扩展功能，扩展汇编给我们提供了那些功能。

5. 扩展汇编

在基本内联汇编中，我们只有指令。然而在扩展汇编中，我们可以同时指定操作数。它允许我们指定输入寄存器、输出寄存器以及修饰寄存器列表。GCC 不强制用户必须指定使用的寄存器。我们可以把头疼的事留给 GCC ，这可能可以更好地适应 GCC 的优化。不管怎么说，基本格式为：

asm ( 汇编程序模板 
    : 输出操作数                   /* 可选的 */
    : 输入操作数                  /* 可选的 */
    : 修饰寄存器列表             /* 可选的 */
    );

汇编程序模板由汇编指令组成。每一个操作数由一个操作数约束字符串所描述，其后紧接一个括弧括起的 C 表达式。冒号用于将汇编程序模板和第一个输出操作数分开，另一个（冒号）用于将最后一个输出操作数和第一个输入操作数分开（如果存在的话）。逗号用于分离每一个组内的操作数。总操作数的数目限制在 10 个，或者机器描述中的任何指令格式中的最大操作数数目，以较大者为准。

如果没有输出操作数但存在输入操作数，你必须将两个连续的冒号放置于输出操作数原本会放置的地方周围。

示例：

asm ("cldnt"
     "repnt"
     "stosl"
     : /* 无输出寄存器 */
     : "c" (count), "a" (fill_value), "D" (dest)
     : "%ecx", "%edi" 
     );

现在来看看这段代码是干什么的？以上的内联汇编是将 fill_value 值连续 count 次拷贝到寄存器 edi 所指位置（LCTT 译注：每执行 stosl 一次，寄存器 edi 的值会递增或递减，这取决于是否设置了 direction 标志，因此以上代码实则初始化一个内存块）。它也告诉 gcc 寄存器 ecx 和 edi 一直无效（LCTT 译注：原文为 eax ，但代码修饰寄存器列表中为 ecx，因此这可能为作者的纰漏。）。为了更加清晰地说明，让我们再看一个示例。

int a=10, b;
asm ("movl %1, %%eax; 
      movl %%eax, %0;"
     :"=r"(b)        /* 输出 */
     :"r"(a)         /* 输入 */
     :"%eax"         /* 修饰寄存器 */
     );

这里我们所做的是使用汇编指令使 ’b’ 变量的值等于 ’a’ 变量的值。一些有意思的地方是：

“b” 为输出操作数，用 %0 引用，并且 “a” 为输入操作数，用 %1 引用。
“r” 为操作数约束。之后我们会更详细地了解约束（字符串）。目前，”r” 告诉 GCC 可以使用任一寄存器存储操作数。输出操作数约束应该有一个约束修饰符 “=” 。这修饰符表明它是一个只读的输出操作数。
寄存器名字以两个 % 为前缀。这有利于 GCC 区分操作数和寄存器。操作数以一个 % 为前缀。
第三个冒号之后的修饰寄存器 %eax 用于告诉 GCC %eax 的值将会在 “asm” 内部被修改，所以 GCC 将不会使用此寄存器存储任何其他值。

当 “asm” 执行完毕， “b” 变量会映射到更新的值，因为它被指定为输出操作数。换句话说， “asm” 内 “b” 变量的修改应该会被映射到 “asm” 外部。

现在，我们可以更详细地看看每一个域。

5.1 汇编程序模板

汇编程序模板包含了被插入到 C 程序的汇编指令集。其格式为：每条指令用双引号圈起，或者整个指令组用双引号圈起。同时每条指令应以分界符结尾。有效的分界符有换行符（n）和分号（;）。n 可以紧随一个制表符（t）。我们应该都明白使用换行符或制表符的原因了吧（LCTT 译注：就是为了排版和分隔）？和 C 表达式对应的操作数使用 %0、%1 … 等等表示。

5.2 操作数

C 表达式用作 “asm” 内的汇编指令操作数。每个操作数前面是以双引号圈起的操作数约束。对于输出操作数，在引号内还有一个约束修饰符，其后紧随一个用于表示操作数的 C 表达式。即，“操作数约束”（C 表达式）是一个通用格式。对于输出操作数，还有一个额外的修饰符。约束字符串主要用于决定操作数的寻址方式，同时也用于指定使用的寄存器。

如果我们使用的操作数多于一个，那么每一个操作数用逗号隔开。

在汇编程序模板中，每个操作数用数字引用。编号方式如下。如果总共有 n 个操作数（包括输入和输出操作数），那么第一个输出操作数编号为 0 ，逐项递增，并且最后一个输入操作数编号为 n – 1 。操作数的最大数目在前一节我们讲过。

输出操作数表达式必须为左值。输入操作数的要求不像这样严格。它们可以为表达式。扩展汇编特性常常用于编译器所不知道的机器指令 ;-)。如果输出表达式无法直接寻址（即，它是一个位域），我们的约束字符串必须给定一个寄存器。在这种情况下，GCC 将会使用该寄存器作为汇编的输出，然后存储该寄存器的内容到输出。

正如前面所陈述的一样，普通的输出操作数必须为只写的； GCC 将会假设指令前的操作数值是死的，并且不需要被（提前）生成。扩展汇编也支持输入-输出或者读-写操作数。

所以现在我们来关注一些示例。我们想要求一个数的5次方结果。为了计算该值，我们使用 lea 指令。

asm ("leal (%1,%1,4), %0"
     : "=r" (five_times_x)
     : "r" (x) 
     );

这里我们的输入为 x。我们不指定使用的寄存器。 GCC 将会选择一些输入寄存器，一个输出寄存器，来做我们预期的工作。如果我们想要输入和输出放在同一个寄存器里，我们也可以要求 GCC 这样做。这里我们使用那些读-写操作数类型。这里我们通过指定合适的约束来实现它。

asm ("leal (%0,%0,4), %0"
     : "=r" (five_times_x)
     : "0" (x) 
     );

现在输出和输出操作数位于同一个寄存器。但是我们无法得知是哪一个寄存器。现在假如我们也想要指定操作数所在的寄存器，这里有一种方法。

asm ("leal (%%ecx,%%ecx,4), %%ecx"
     : "=c" (x)
     : "c" (x) 
     );

在以上三个示例中，我们并没有在修饰寄存器列表里添加任何寄存器，为什么？在头两个示例， GCC 决定了寄存器并且它知道发生了什么改变。在最后一个示例，我们不必将 ‘ecx’ 添加到修饰寄存器列表（LCTT 译注：原文修饰寄存器列表这个单词拼写有错，这里已修正），gcc 知道它表示 x。因此，因为它可以知道 ecx 的值，它就不被当作修饰的（寄存器）了。

5.3 修饰寄存器列表

一些指令会破坏一些硬件寄存器内容。我们不得不在修饰寄存器中列出这些寄存器，即汇编函数内第三个 ’:’ 之后的域。这可以通知 gcc 我们将会自己使用和修改这些寄存器，这样 gcc 就不会假设存入这些寄存器的值是有效的。我们不用在这个列表里列出输入、输出寄存器。因为 gcc 知道 “asm” 使用了它们（因为它们被显式地指定为约束了）。如果指令隐式或显式地使用了任何其他寄存器，（并且寄存器没有出现在输出或者输出约束列表里），那么就需要在修饰寄存器列表中指定这些寄存器。

如果我们的指令可以修改条件码寄存器（cc），我们必须将 “cc” 添加进修饰寄存器列表。

如果我们的指令以不可预测的方式修改了内存，那么需要将 “memory” 添加进修饰寄存器列表。这可以使 GCC 不会在汇编指令间保持缓存于寄存器的内存值。如果被影响的内存不在汇编的输入或输出列表中，我们也必须添加 volatile 关键词。

我们可以按我们的需求多次读写修饰寄存器。参考一下模板内的多指令示例；它假设子例程 _foo 接受寄存器 eax 和 ecx 里的参数。

asm ("movl %0,%%eax;
      movl %1,%%ecx;
      call _foo"
     : /* no outputs */
     : "g" (from), "g" (to)
     : "eax", "ecx"
     );

5.4 Volatile …?

如果你熟悉内核源码或者类似漂亮的代码，你一定见过许多声明为 volatile 或者 __volatile__的函数，其跟着一个 asm 或者 __asm__。我之前提到过关键词 asm 和 __asm__。那么什么是 volatile 呢？

如果我们的汇编语句必须在我们放置它的地方执行（例如，不能为了优化而被移出循环语句），将关键词 volatile 放置在 asm 后面、()的前面。以防止它被移动、删除或者其他操作，我们将其声明为 asm volatile ( ... : ... : ... : ...);

如果担心发生冲突，请使用 __volatile__。

如果我们的汇编只是用于一些计算并且没有任何副作用，不使用 volatile 关键词会更好。不使用 volatile 可以帮助 gcc 优化代码并使代码更漂亮。

在“一些实用的诀窍”一节中，我提供了多个内联汇编函数的例子。那里我们可以了解到修饰寄存器列表的细节。

6. 更多关于约束

到这个时候，你可能已经了解到约束和内联汇编有很大的关联。但我们对约束讲的还不多。约束用于表明一个操作数是否可以位于寄存器和位于哪种寄存器；操作数是否可以为一个内存引用和哪种地址；操作数是否可以为一个立即数和它可能的取值范围（即值的范围），等等。

6.1 常用约束

在许多约束中，只有小部分是常用的。我们来看看这些约束。

寄存器操作数约束（r）

当使用这种约束指定操作数时，它们存储在通用寄存器（GPR）中。请看下面示例：

asm ("movl %%eax, %0n" :"=r"(myval));

这里，变量 myval 保存在寄存器中，寄存器 eax 的值被复制到该寄存器中，并且 myval 的值从寄存器更新到了内存。当指定 “r” 约束时， gcc 可以将变量保存在任何可用的 GPR 中。要指定寄存器，你必须使用特定寄存器约束直接地指定寄存器的名字。它们为：


++--+
| a |   %eax, %ax, %al   |
| b |   %ebx, %bx, %bl   |
| c |   %ecx, %cx, %cl   |
| d |   %edx, %dx, %dl   |
| S |   %esi, %si        |
| D |   %edi, %di        |
+

via: <http://www.ibiblio.org/gferg/ldp/GCC-Inline-Assembly-HOWTO.html>

作者：[Sandeep.S](mailto:[email protected]) 译者：[cposture](https://github.com/cposture) 校对：[wxy](https://github.com/wxy)

本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创翻译，[Linux中国](http://linux.cn/) 荣誉推出

8 条回复

hello_linux [Chrome 46.0|Windows 7]

可以，看看

来自深圳

2016年8月16日

回复
zansy [Firefox 48.0|Windows 10]

赞，了解了

来自深圳

2016年8月17日

回复
来自北京的 Chrome 45.0|Windows 7 用户

这文章？baidu机器翻译的？

来自北京

2016年8月17日

回复
来自广东深圳的 Firefox 47.0|Windows 7 用户

哪里像百度翻译。。

来自深圳

2016年8月17日

回复
linux [Chrome 52.0|Mac 10.11]

你家百度翻译真厉害。

来自北京

2016年8月17日

回复
chenjintao_ii [Firefox 47.0|Fedora]

昨天两遍，今天又看了一遍，还是没看明白。我是不是不适合做程序猿了？

来自杭州

2016年8月18日

回复
linux [Chrome 52.0|Mac 10.11]

我觉得用不到的人看不懂也没啥。。

来自北京

2016年8月19日

回复
来自黑龙江的 Chrome 91.0|Windows 10 用户

5.2节
"所以现在我们来关注一些示例。我们想要求一个数的5次方结果。为了计算该值，我们使用 lea 指令。"
应该是一个数的5倍

来自哈尔滨

2021年6月6日

回复