Linux内核学习笔记（七）系统调用

综述

用户空间进程通过内核提供的一套接口和系统进行交互，这些接口让用户空间进程能够受控地访问系统资源、创建新的进程以及和其他进程通信等。受控表示用户进程不能不受限制地做任何想做的事情，这对保证系统的稳定非常关键。在Linux系统中，系统调用是除了exception和trap之外用户空间和内核交互的唯一方式。

API，POSIX 和 C Library

API（Application Programming Interface）定义了一套给应用程序使用的编程接口，应用程序不会直接访问系统调用，而是通过API来间接的访问系统调用。一个API可以使用一个系统调用实现，也可以同时使用多个系统调用来实现，也可以不使用任何系统调用。相同的API可以同时在多个不同的系统中存在，它们为用户程序提供相同的接口，但是相同的API在不同系统上的具体实现则可能大相径庭。

Unix中最常见的API是基于POSIX标准的，Linux尽力与POSIX标准兼容。POSIX是一个很好的用来说明API和系统调用关系的例子，在绝大多数Unix系统中，POSIX标准定义的API和Unix的系统调用有很大关联，因为POSIX标准就是参照早期的Unix系统来制定的，Windows操作系统也提供了与POXIS兼容的库。

这里要说明两个容易混淆的概念：系统调用（system call）和系统调用接口（system call interface）。前者就是我们说的系统调用，但是系统调用并不是和API一样可以直接调用的，需要直接和CPU打交道，比如一种实现方式是通过汇编指令int $0x80来触发软中断，此外，还需要通过汇编指令来填充CPU的寄存器。Linux为我们提供了这些操作的宏定义，但是在应用中直接使用这些宏定义还是很麻烦的，所以Linux为我们提供了系统调用接口作为系统调用的封装函数（Wrapper Routine）来帮助我们轻松地访问系统调用。我们平时使用的如open()，fork()都是封装了系统调用的系统调用接口。

Linux和大部分Unix系统的系统调用接口都由C库（C library，Linux中最常见实现的为glibc）提供，Linux中的C库同时包括了C语言标准库（standard C library）和系统调用接口。此外，Linux的C库还提供了POSIX表中规定的绝大部分API。

系统调用

Linux下的应用程序通常通过C库提供的API来访问系统调用系统调用，系统调用会返回一个long型的返回值，0通常表示成功，负数通常代表出错。C库的API实现在系统调动返回了一个错误时，会将一个特殊的错误码写到全局变量errno中，通过库函数perror()可以将这个错误码翻译为用户可以理解的错误提示。

Linux会给每个系统调用分配一个系统调用号（syscall number），这个全局唯一的调用号指向对应的系统调用函数。当用户程序发起系统调用时，系统调用号就被用来表明要执行哪一个系统调用，进程不能通过系统调用的名称来访问系统调用，必须通过系统调用号。内核在系统调用表sys_call_table中记录了所有注册过的系统调用，每种体系结构都会明确定义一个这样的表，在x86-64架构中，这个表定义在arch/i386/kernel/syscall_64.c中。这个表为每一个有效的系统调用指定了一个唯一的系统调用号

Linux系统调用的执行速度比许多其他的操作系统都要快，主要原因包括Linux中很短的上下文切换时间，进入和退出内核空间的简单高效。系统调用处理程序的简洁和系统调用本身的执行效率也是因素之一。

系统调用处理程序（System Call Handler）

用户空间的应用不能直接执行内核代码，它们可以以某种方式给内核发送信号，告诉它想执行一个系统调用，希望系统切换到内核模式，然后内核代表应用程序在内核空间执行系统调用。

给内核发送信号的方式主要有三种：

软中断指令 int $0x80
sysenter指令
syscall指令

软中断指令的方式是通过向CPU发送一个软中断，触发一个异常（exception）。软中断会让系统切换到内核模式，并执行异常处理程序，在系统调用的背景下，事实上执行的就是系统调用处理程序system_call()，x86架构上软中断的终端号是0x80，通过int $0x80来触发。sysenter 和 syscall是后来出现的方式，性能要优于软中断方式。

进入内核后，内核需要区分不同的系统调用，然后执行对应的函数，这就需要将系统调用号传递给内核。在x86架构，系统调用通过CPU的eax寄存器将系统调用号传递给内核，用户空间将系统调用号放入eax中，然后内核从eax中读取，其他体系结构的做法是类似的。

系统调用处理程序system_call()会检查系统调用号是否有效（比如系统调用号不存在），如果无效，返回 -ENOSYS。如果系统调用号有效，则执行指令：call *sys_call_table(0,%rax,8) 来执行对应的系统调用函数。sys_call_table中的元素是8字节的，所以内核将系统调用号乘以8就可以直接得到对应的系统调用函数入口。在0x86-32架构中，每个元素是4字节，所以把8换成4即可。

下图显示了read()系统调用执行的过程。其中C library中的read()是封装函数，即系统调用接口，sys_read()才是真正的系统调用函数。

read()系统调用

大部分系统调用函数有一个或者多个参数，用户空间必须以某种方式将参数传递给内核，最简单的方式是采用和系统调用号一样的传递方式，即将参数写入CPU寄存器。在x86-32架构中，ebx, ecx, edx, esi 和 edi 这5个寄存器被用来按顺序放置前面5个参数，部分系统调用有6个或者更多的参数，寄存器不够用了，那么就在一个寄存器里面放置一个指向用户空间的指针，该指针指向的内存存储了所有的参数。

系统调用的返回值也是通过寄存器从内核空间中传递给用户空间的，在x86架构中，返回值使用eax寄存器传递。

在内核线程中访问系统调用

虽然系统调用主要被用户空间程序使用，但是内核线程一样可以使用系统调用，但是内核线程无法使用C库，所以没有封装函数可以用，需要自己写封装函数。Linux定一个了7个宏来简化封装函数的定义，这7个宏分别为_syscall0, _syscall1, _syscall2, _syscall3, _syscall4, _syscall5, _syscall6。宏名字后面的数字表示其封装的系统调用有几个参数，这些宏不能用于参数个数超过6个的系统调用的封装。（但是仍然可以不用宏，自己手动封装）。

每个宏需要 2+2*n 个参数，n是系统调用的参数个数，最前面的两个参数规定了系统调用的返回类型和系统调用的名字。后面每2个参数分别规定对应位置的参数的类型和名字。

下面的语句为fork()系统调用生成封装函数： _syscall0(int,fork)

write()系统调用可以通过下面的方式生成封装函数： _syscall3(int,write,int,fd,const char *,buf,unsigned int,count)

后者将产生下面的代码：

int write(int fd,const char * buf,unsigned int count)
{
    long __res;
    asm("int $0x80"
        : "=a" (__res)
        : "0" (__NR_write), "b" ((long)fd),
            "c" ((long)buf), "d" ((long)count));
    if ((unsigned long)__res >= (unsigned long)-129)
    {
        errno = -__res;
        __res = -1;
    }
    return (int) __res;
}

其中__NR_write宏是从_syscall3的第2个参数派生的，它将被展开为write()的系统调用号。上述代码编译后产生的汇编代码如下：

    write:
    pushl %ebx              ; push ebx into stack
    movl 8(%esp), %ebx      ; put first parameter in ebx
    movl 12(%esp), %ecx     ; put second parameter in ecx
    movl 16(%esp), %edx     ; put third parameter in edx
    movl $4, %eax           ; put __NR_write in eax
    int $0x80               ; invoke system call
    cmpl $-125, %eax        ; check return code
    jbe .L1                 ; if no error, jump
    negl %eax               ; complement the value of eax
    movl %eax, errno        ; put result in errno
    movl $-1, %eax          ; set eax to -1
.L1: popl %ebx              ; pop ebx from stack
    ret                     ; return to calling program

可以看到在将系统调用号（%eax）、参数（ebx，ecx,edx)分别写入对应寄存器后，就会执行 int $0x80指令出发软中断。返回值被放入了eax寄存器中，如果发现返回值是一个错误码，封装程序会将-eax的值存入errno中，并将eax的值改为-1。最后返回。

参考资料

《Linux Kernel Development 3rd Edition》

《Understanding The Linux Kernel 3rd Edition》