Linux 内核驱动接口详解_系统运维

写作本文档的目的，是为了解释为什么Linux既没有二进制内核接口，也没有稳定的内核接口。这里所说的内核接口，是指内核里的接口，而不是内核和用户空间的接口。内核到用户空间的接口，是提供给应用程序使用的系统调用，系统调用在历史上几乎没有过变化，将来也不会有变化。我有一些老应用程序是在0.9版本或者更早版本的内核上编译的，在使用2.6版本内核的Linux发布上依然用得很好。用户和应用程序作者可以将这个接口看成是稳定的。

你也许以为自己想要稳定的内核接口，但是你不清楚你要的实际上不是它。你需要的其实是稳定的驱动程序，而你只有将驱动程序放到公版内核的源代码树里，才有可能达到这个目的。而且这样做还有很多其它好处，正是因为这些好处使得 Linux能成为强壮，稳定，成熟的 *** 作系统，这也是你最开始选择Linux的原因。

只有那些写驱动程序的“怪人”才会担心内核接口的改变，对广大用户来说，既看不到内核接口，也不需要去关心它。

既然只谈技术问题，我们就有了下面两个主题：二进制内核接口和稳定的内核源代码接口。这两个问题是互相关联的，让我们先解决掉二进制接口的问题。

假如我们有一个稳定的内核源代码接口，那么自然而然的，我们就拥有了稳定的二进制接口，是这样的吗？错。让我们看看关于Linux内核的几点事实：

对于一个特定的内核，满足这些条件并不难，使用同一个C编译器和同样的内核配置选项来编译驱动程序模块就可以了。这对于给一个特定Linux发布的特定版本提供驱动程序，是完全可以满足需求的。但是如果你要给不同发布的不同版本都发布一个驱动程序，就需要在每个发布上用不同的内核设置参数都编译一次内核，这简直跟噩梦一样。而且还要注意到，每个Linux发布还提供不同的Linux内核，这些内核都针对不同的硬件类型进行了优化（有很多种不同的处理器，还有不同的内核设置选项）。所以每发布一次驱动程序，都需要提供很多不同版本的内核模块。

相信我，如果你真的要采取这种发布方式，一定会慢慢疯掉，我很久以前就有过深刻的教训…

如果有人不将他的内核驱动程序，放入公版内核的源代码树，而又想让驱动程序一直保持在最新的内核中可用，那么这个话题将会变得没完没了。内核开发是持续而且快节奏的，从来都不会慢下来。内核开发人员在当前接口中找到bug，或者找到更好的实现方式。一旦发现这些，他们就很快会去修改当前的接口。修改接口意味着，函数名可能会改变，结构体可能被扩充或者删减，函数的参数也可能发生改变。一旦接口被修改，内核中使用这些接口的地方需要同时修正，这样才能保证所有的东西继续工作。

举一个例子，内核的USB驱动程序接口在USB子系统的整个生命周期中，至少经历了三次重写。这些重写解决以下问题：

这和一些封闭源代码的 *** 作系统形成鲜明的对比，在那些 *** 作系统上，不得不额外的维护旧的USB接口。这导致了一个可能性，新的开发者依然会不小心使用旧的接口，以不恰当的方式编写代码，进而影响到 *** 作系统的稳定性。在上面的例子中，所有的开发者都同意这些重要的改动，在这样的情况下修改代价很低。如果Linux保持一个稳定的内核源代码接口，那么就得创建一个新的接口；旧的，有问题的接口必须一直维护，给Linux USB开发者带来额外的工作。既然所有的Linux USB驱动的作者都是利用自己的时间工作，那么要求他们去做毫无意义的免费额外工作，是不可能的。安全问题对Linux来说十分重要。一个安全问题被发现，就会在短时间内得到修正。在很多情况下，这将导致Linux内核中的一些接口被重写，以从根本上避免安全问题。一旦接口被重写，所有使用这些接口的驱动程序，必须同时得到修正，以确定安全问题已经得到修复并且不可能在未来还有同样的安全问题。如果内核内部接口不允许改变，那么就不可能修复这样的安全问题，也不可能确认这样的安全问题以后不会发生。开发者一直在清理内核接口。如果一个接口没有人在使用了，它就会被删除。这样可以确保内核尽可能的小，而且所有潜在的接口都会得到尽可能完整的测试（没有人使用的接口是不可能得到良好的测试的）。

如果你写了一个Linux内核驱动，但是它还不在Linux源代码树里，作为一个开发者，你应该怎么做？为每个发布的每个版本提供一个二进制驱动，那简直是一个噩梦，要跟上永远处于变化之中的内核接口，也是一件辛苦活。很简单，让你的驱动进入内核源代码树（要记得我们在谈论的是以GPL许可发行的驱动，如果你的代码不符合GPL，那么祝你好运，你只能自己解决这个问题了，你这个吸血鬼把Andrew和Linus对吸血鬼的定义链接到这里>）。当你的代码加入公版内核源代码树之后，如果一个内核接口改变，你的驱动会直接被修改接口的那个人修改。保证你的驱动永远都可以编译通过，并且一直工作，你几乎不需要做什么事情。

把驱动放到内核源代码树里会有很多的好处：

进程读写文件之前需要 打开文件 ,得到 文件描述符 ,然后 通过文件描述符读写文件 .

内核提供了两个打开文件的系统调用 open 和 openat .

打开文件的主要步骤如下:

(1)需要 在父目录的数据中查找文件对应的目录项 , 从目录项得到索引节点的编号,然后在内存中创建索引节点的副本 .因为各种文件系统类型的物理结构不同,所以需要提供索引节点 *** 作集合的 lookup 方法和文件 *** 作集合的 open 方法.

(2)需要分配文件的一个打开实例-- file 结构体,关联到文件的索引节点.

(3)在进程的打开文件表中 分配一个文件描述符 , 把文件描述符和打开实例的映射添加到进程的打开文件表 中.

进程可通过使用系统调用 close 关闭文件.

系统调用close的执行流程如下:

(1)解除打开文件表和file实例的关联.

(2)在close_on_exec位图中清楚文件描述符对应的位.

(3)释放文件描述符,在文件描述符位图中清除文件描述符对应的位.

(4)调用函数fput释放file实例:把引用计数减1,如果引用计数是0,那么把file实例添加到链表delayed_fput_list中,然后调用延迟工作项delayed_fput_work.

延迟工作项delayed_fput_work的处理函数是flush_delayed_fput,遍历链表delayed_fput_list,针对每个file实例,调用函数__fput来加以释放.

创建不同类型的文件,需要使用不同的命令.

(1) 普通文件 :touch FILE ,这条命令本来用来更新文件的访问时间和修改时间,如果文件不存在,创建文件.

(2) 目录 :mkdir DIRECTORY .

(3) 符号链接(软链接) :ln -s TARGET LINK_NAME 或ln --symbolic TARGET LINK_NAME .

(4) 字符或块设备文件 :mknod NAME TYPE [MAJOR MINOR] .

(5) 命名管道 :mkpipe NAME .

(6) 硬连接 :命令"ln TARGET　LINK_NAME ".给已经存在的文件增加新的名称,文件的索引节点有一个硬链接计数,如果文件有n个名称,那么硬链接计数是n.

创建文件需要在文件系统中 分配一个索引节点 ,然后 在父目录的数据中增加一个目录项来保存文件的名称和索引节点编号 .

删除文件的命令如下:

(1)删除任何类型文件:unlink FILE .

(2)rm FILE ,默认不删除目录,如果使用"-r""-R"或"-recursive",可以删除目录和目录的内容.

(3)删除目录:rmdir DICTIONARY .

内核提供了unlink,unlinkat用来删除文件的名称,如果文件的硬链接计数变成0,并且没有进程打开这个文件,那么删除文件.提供了rmdir删除目录.

删除文件需要从父目录的数据中删除文件对应的目录项, 把文件的索引节点的硬链接计数减1(一个文件可以有多个名称,Linux把文件名称称为硬链接),如果索引节点的硬链接计数变成0,那么释放索引节点 .因为各种文件系统的物理结构不同,所以需要提供索引节点 *** 作集合的 unlink 方法.

设置文件权限的命令如下:

(1)chmod [OPTION]... MODE[, MODE]... FILE...

mode : 权限设定字串，格式[ugoa...][[+-=][rwxX]...][,...]

其中：

(2)chmod [OPTION]... OCTAL-MODE FILE...

参数OCTAL-MODE是八进制数值.

系统调用chmod负责修改文件权限.

修改文件权限需要修改文件的索引节点的文件模式字段,文件模式字段包含文件类型和访问权限.因为各种文件系统类型的索引节点不同,所以需要提供索引节点 *** 作集合的 setattr 方法.

访问外部存储设备的速度很慢,为了避免每次读写文件时访问外部存储设备, 文件系统模块为每个文件在内存中创建一个缓存 ,因为 缓存的单位是页 ,所以称为 页缓存 .

(1) 索引节点的成员i_mapping 指向地址空间结构体(address_space).进程在打开文件的时候, 文件打开实例(file结构体)的成员f_mapping 也会指向文件的地址空间.

(2)每个文件有一个地址空间结构体 address_space ,成员 page_tree 的类型是结构体radix_tree_root:成员 gfp_mask是分配内存页的掩码,成员rnode指向基数树的根节点 .

(3)使用基数树管理页缓存,把文件的页索引映射到内存页的页描述符.

每个文件都有一个地址空间结构体address_space,用来建立数据缓存(在内存中为某种数据创建的缓存)和数据来源(即存储设备)之间的关联.结构体address_space如下:

地址空间 *** 作结合address_space_operations的主要成员如下:

页缓存的常用 *** 作函数如下:

(1)函数find_get_page根据文件的页索引在页缓存中查找内存页.

(2)函数find_or_create_page根据文件的页索引在页缓存中查找内存页,如果没有找到内存页,那么分配一个内存页,然后添加到页缓存中.

(3)函数add_to_page_cache_lru把一个内存页添加到页缓存和LRU链表中.

(4)函数delete_from_page_cache从页缓存中删除一个内存页.

进程读文件的方式有3种:

(1)调用内核提供的 读文件的系统调用 .

(2)调用glibc库封装的读文件的 标准I/O流函数 .

(3)创建基于文件的内存映射,把 文件的一个区间映射到进程的虚拟地址空间,然后直接读内存 .

第2种方式在用户空间创建了缓冲区,能减少系统调用的次数,提高性能.第3种方式可以避免系统调用,性能最高.

读文件的主要步骤如下:

(1)调用具体文件系统类型提供的文件 *** 作集合的read和read_iter方法来读文件.

(2) read或read_iter方法根据页索引在文件的页缓存中查找页,如果没有找到,那么调用具体文件系统类型提供的地址空间集合的readpage方法来从存储设备读取文件页到内存中 .

为了提高读文件的速度,从存储设备读取文件页到内存中的时候,除了读取请求的文件页,还会预读后面的文件页.如果进程按顺序读文件,预读文件页可以提高读文件的速度如果进程随机读文件,预读文件页对提高读文件的速度帮助不大.

进程写文件的方式有3种:

(1)调用内核提供的 写文件的系统调用 .

(2)调用glibc库封装的写文件的 标准I/O流函数 .

(3)创建基于文件的内存映射,把 文件的一个区间映射到进程的虚拟空间,然后直接写内存 .

第2种方式在用户空间创建了缓冲区,能够减少系统调用的次数,提高性能.第3种方式可以避免系统调用,性能最高.

写文件的主要步骤如下:

(1)调用具体文件系统类型提供的文件 *** 作集合的write或write_iter方法来写文件.

(2)write或write_iter方法调用文件的地址空间 *** 作集合的 write_begin 方法, 在页缓存查找页,如果页不存在就分配页然后把数据从用户缓冲区复制到页缓存的页中 最后调用文件的地址空间 *** 作集合的 write_end 方法.

进程写文件时,内核的文件系统模块把数据写到文件的页缓存,没有立即写回到存储设备.文件系统模块会定期把脏页写回到存储设备,进程也可以调用系统调用把脏页强制写回到存储设备.

管理员可以执行命令"sync",把内存中所有修改过的文件元数据和文件数据写回到存储设备.

内核提供了 sync , syncfs , fsync , fdatasync , sync_file_range 等系统调用用于文件写回.

把文件写回到存储设备的时机如下:

(1)周期回写.

(2)当脏页的数量达到限制的时候,强制回写.

(3)进程调用sync和syncfs等系统调用.

对于类似内存的块设备,例如NVDIMM设备,不需要把文件从存储设备复制到页缓存.DAX绕过页缓存,直接访问存储设备,对于基于文件的内存映射,直接把存储设备映射到进程的虚拟地址空间.

调用系统调用mmap创建基于文件的内存映射,把文件的一个区间映射到进程的虚拟地址空间,这会调用具体文件系统类型提供的文件 *** 作集合的mmap方法.mmap方法针对设置了标志位S_DAX的索引节点,处理方法如下:

(1)给虚拟内存区域设置标志位VM_MIXEDMAP和VM_HUGEPAGE.

(2)设置虚拟内存 *** 作集合,提供fault,huge_fault,page_mkwrite和pfn_mkwrite方法.

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8682552.html

Linux 内核驱动接口详解

发表评论

评论列表（0条）