综述

用户空间进程通过内核提供的一套接口和系统进行交互,这些接口让用户空间进程能够受控地访问系统资源、创建新的进程以及和其他进程通信等。受控表示用户进程不能不受限制地做任何想做的事情,这对保证系统的稳定非常关键。在Linux系统中,系统调用是除了exception和trap之外用户空间和内核交互的唯一方式。

API,POSIX 和 C Library

API(Application Programming Interface)定义了一套给应用程序使用的编程接口,应用程序不会直接访问系统调用,而是通过API来间接的访问系统调用。一个API可以使用一个系统调用实现,也可以同时使用多个系统调用来实现,也可以不使用任何系统调用。相同的API可以同时在多个不同的系统中存在,它们为用户程序提供相同的接口,但是相同的API在不同系统上的具体实现则可能大相径庭。

Unix中最常见的API是基于POSIX标准的,Linux尽力与POSIX标准兼容。POSIX是一个很好的用来说明API和系统调用关系的例子,在绝大多数Unix系统中,POSIX标准定义的API和Unix的系统调用有很大关联,因为POSIX标准就是参照早期的Unix系统来制定的,Windows操作系统也提供了与POXIS兼容的库。

这里要说明两个容易混淆的概念:系统调用(system call)和系统调用接口(system call interface)。前者就是我们说的系统调用,但是系统调用并不是和API一样可以直接调用的,需要直接和CPU打交道,比如一种实现方式是通过汇编指令int $0x80来触发软中断,此外,还需要通过汇编指令来填充CPU的寄存器。Linux为我们提供了这些操作的宏定义,但是在应用中直接使用这些宏定义还是很麻烦的,所以Linux为我们提供了系统调用接口作为系统调用的封装函数(Wrapper Routine)来帮助我们轻松地访问系统调用。我们平时使用的如open(),fork()都是封装了系统调用的系统调用接口。

Linux和大部分Unix系统的系统调用接口都由C库(C library,Linux中最常见实现的为glibc)提供,Linux中的C库同时包括了C语言标准库(standard C library)和系统调用接口。此外,Linux的C库还提供了POSIX表中规定的绝大部分API。

系统调用

Linux下的应用程序通常通过C库提供的API来访问系统调用系统调用,系统调用会返回一个long型的返回值,0通常表示成功,负数通常代表出错。C库的API实现在系统调动返回了一个错误时,会将一个特殊的错误码写到全局变量errno中,通过库函数perror()可以将这个错误码翻译为用户可以理解的错误提示。

Linux会给每个系统调用分配一个系统调用号(syscall number),这个全局唯一的调用号指向对应的系统调用函数。当用户程序发起系统调用时,系统调用号就被用来表明要执行哪一个系统调用,进程不能通过系统调用的名称来访问系统调用,必须通过系统调用号。内核在系统调用表sys_call_table中记录了所有注册过的系统调用,每种体系结构都会明确定义一个这样的表,在x86-64架构中,这个表定义在arch/i386/kernel/syscall_64.c中。这个表为每一个有效的系统调用指定了一个唯一的系统调用号

Linux系统调用的执行速度比许多其他的操作系统都要快,主要原因包括Linux中很短的上下文切换时间,进入和退出内核空间的简单高效。系统调用处理程序的简洁和系统调用本身的执行效率也是因素之一。

系统调用处理程序(System Call Handler)

用户空间的应用不能直接执行内核代码,它们可以以某种方式给内核发送信号,告诉它想执行一个系统调用,希望系统切换到内核模式,然后内核代表应用程序在内核空间执行系统调用。

给内核发送信号的方式主要有三种:

  • 软中断指令 int $0x80
  • sysenter指令
  • syscall指令

软中断指令的方式是通过向CPU发送一个软中断,触发一个异常(exception)。软中断会让系统切换到内核模式,并执行异常处理程序,在系统调用的背景下,事实上执行的就是系统调用处理程序system_call(),x86架构上软中断的终端号是0x80,通过int $0x80来触发。sysenter 和 syscall是后来出现的方式,性能要优于软中断方式。

进入内核后,内核需要区分不同的系统调用,然后执行对应的函数,这就需要将系统调用号传递给内核。在x86架构,系统调用通过CPU的eax寄存器将系统调用号传递给内核,用户空间将系统调用号放入eax中,然后内核从eax中读取,其他体系结构的做法是类似的。

系统调用处理程序system_call()会检查系统调用号是否有效(比如系统调用号不存在),如果无效,返回 -ENOSYS。如果系统调用号有效,则执行指令:call *sys_call_table(0,%rax,8) 来执行对应的系统调用函数。sys_call_table中的元素是8字节的,所以内核将系统调用号乘以8就可以直接得到对应的系统调用函数入口。在0x86-32架构中,每个元素是4字节,所以把8换成4即可。

下图显示了read()系统调用执行的过程。其中C library中的read()是封装函数,即系统调用接口,sys_read()才是真正的系统调用函数。

read()系统调用

大部分系统调用函数有一个或者多个参数,用户空间必须以某种方式将参数传递给内核,最简单的方式是采用和系统调用号一样的传递方式,即将参数写入CPU寄存器。在x86-32架构中,ebx, ecx, edx, esi 和 edi 这5个寄存器被用来按顺序放置前面5个参数,部分系统调用有6个或者更多的参数,寄存器不够用了,那么就在一个寄存器里面放置一个指向用户空间的指针,该指针指向的内存存储了所有的参数。

系统调用的返回值也是通过寄存器从内核空间中传递给用户空间的,在x86架构中,返回值使用eax寄存器传递。

在内核线程中访问系统调用

虽然系统调用主要被用户空间程序使用,但是内核线程一样可以使用系统调用,但是内核线程无法使用C库,所以没有封装函数可以用,需要自己写封装函数。Linux定一个了7个宏来简化封装函数的定义,这7个宏分别为_syscall0, _syscall1, _syscall2, _syscall3, _syscall4, _syscall5, _syscall6。宏名字后面的数字表示其封装的系统调用有几个参数,这些宏不能用于参数个数超过6个的系统调用的封装。(但是仍然可以不用宏,自己手动封装)。

每个宏需要 2+2*n 个参数,n是系统调用的参数个数,最前面的两个参数规定了系统调用的返回类型和系统调用的名字。后面每2个参数分别规定对应位置的参数的类型和名字。

下面的语句为fork()系统调用生成封装函数: _syscall0(int,fork)

write()系统调用可以通过下面的方式生成封装函数: _syscall3(int,write,int,fd,const char *,buf,unsigned int,count)

后者将产生下面的代码:

int write(int fd,const char * buf,unsigned int count)
{
    long __res;
    asm("int $0x80"
        : "=a" (__res)
        : "0" (__NR_write), "b" ((long)fd),
            "c" ((long)buf), "d" ((long)count));
    if ((unsigned long)__res >= (unsigned long)-129)
    {
        errno = -__res;
        __res = -1;
    }
    return (int) __res;
}

其中__NR_write宏是从_syscall3的第2个参数派生的,它将被展开为write()的系统调用号。上述代码编译后产生的汇编代码如下:

    write:
    pushl %ebx              ; push ebx into stack
    movl 8(%esp), %ebx      ; put first parameter in ebx
    movl 12(%esp), %ecx     ; put second parameter in ecx
    movl 16(%esp), %edx     ; put third parameter in edx
    movl $4, %eax           ; put __NR_write in eax
    int $0x80               ; invoke system call
    cmpl $-125, %eax        ; check return code
    jbe .L1                 ; if no error, jump
    negl %eax               ; complement the value of eax
    movl %eax, errno        ; put result in errno
    movl $-1, %eax          ; set eax to -1
.L1: popl %ebx              ; pop ebx from stack
    ret                     ; return to calling program

可以看到在将系统调用号(%eax)、参数(ebx,ecx,edx)分别写入对应寄存器后,就会执行 int $0x80指令出发软中断。返回值被放入了eax寄存器中,如果发现返回值是一个错误码,封装程序会将-eax的值存入errno中,并将eax的值改为-1。最后返回。

参考资料

《Linux Kernel Development 3rd Edition》

《Understanding The Linux Kernel 3rd Edition》