低级工具——C语言/C++

不可言诉的深渊

发布于 2019-07-26 16:56:16

2.1K0

发布于 2019-07-26 16:56:16

文章被收录于专栏：Python机器学习算法说书人

C语言/C++的重要性

虽然我的公众号以Python方向为主，但是Python运行速度太慢，因为做了太多的底层封装。提高速度可以使用多进程，但是多进程占用系统资源太多，为了减少占用的资源并提高性能，就该拿起低级工具，将“前盖”打开并对“引擎”进行调整。

这里的低级工具就是C语言/C++。有些读者应该是不懂C语言/C++的，所以这篇文章我就来讲一下C语言/C++为什么可以作为低级工具，为什么它们速度非常快？

编译和解释

我们都知道计算机无法直接理解高级语言的意思，都需要同过一个翻译成机器码的过程来实现，因为翻译方式的不同，我们把高级语言分为两类——编译性语言和解释性语言。解释性语言是对程序逐行作出解释并运行（也就是运行一行解释下一行，直到程序结束），不会生成其他任何文件。编译性语言在程序执行之前，先会通过编译器对程序执行编译的过程，把程序转变为机器语言，也就是可执行文件，运行时就不需要做其他操作了，直接运行即可，这也就是为什么编译性语言运行速度快过解释性语言。

Python是解释性语言？

Python属于解释性语言，正常人都会这么认为，但是大家在编写大型程序（也就是多个Python文件的项目）时，在同目录下会有一个__pycache__的文件夹，里面的文件后缀名全都是pyc，如图所示。

看到文件类型是Complied Python File——编译过的Python文件。

既然是解释性语言，那么pyc文件是通过何种方式生成的？编译过的Python文件又是什么情况？其实大家不难发现，因为多个Python文件如果一直是那样解释运行无疑会导致运行时速度过慢，为了提高速度，Python解释器把一些重用的模块先给编译成了pyc文件，到第二次执行就不需要再次解释这些重用的模块，直接执行即可。所以Python的运行过程是先编译后解释。

到这里有一个问题，如果我程序结果不对，发现结果的错误是因为一个模块的错误，修改了那个模块，但是对应的pyc文件未修改，正常人会认为结果还是错的，实际上修改模块就能输出正确的结果，不需要把对应的pyc文件删除。至于为什么。看一下import的源码，会发现在import的时候它会对pyc文件和py文件的最后修改日期进行检查，如果发现py文件的修改日期晚于pyc文件的修改日期，就进行重新编译。只重新编译这一个模块，其他未修改的模块不会有影响。

C语言/C++是编译性语言

C语言/C++属于典型的编译性语言，而且它们更接近底层，可以直接操控硬件，运行速度当然也是非常快！为了让大家更好的对“引擎”进行调整，懂得低级工具的使用过程是很有必要的！我只讲Windows下的C程序运行过程，UNIX的C会略有涉及，但不会细讲。

C语言/C++运行的过程分为三步：编译，链接，运行。编译的过程又分为以下几步：编译预处理，编译程序本身，优化程序，汇编程序。源文件经过编译之后会生成一个扩展名是obj的目标文件，然后目标文件经过链接生成扩展名是exe的可执行文件。现在主要来讲一下编译时的几个过程。

编译

编译预处理

编译预处理是对源代码中的伪指令（以#打头的指令）和特殊符号进行处理。伪指令主要包括以下四个方面。

伪指令

宏定义指令

宏定义指令有两种，一种是#define，一种是#undef，define是C语言里面用来定义常量和伪函数的，常量不用解释了，大家应该都懂，重点来解释一下伪函数，先来看一下系统中已经有了的两个伪函数，如图所示。

这两个伪函数具体是什么意思不用解释了吧，__max是用来求两个数的最大值，__min是用来求两个数的最小值。这两个伪函数逻辑差不多，我只讲一下__max，这个伪函数有两个参数，参数类型随意，但需要尽量有实际意义（两个数，数与字符，两个字符，两个字符串这些情况比较都是有实际意义的），没有实际意义的大小比较我没试过，大家可以自己尝试。

条件编译指令

条件编译指令有#ifdef，#ifndef，#elif，#else，#endif这些指令是用来对编译的代码进行筛选的，在自己编写头文件时，大家都会写上这么几行代码（注意看前两行和最后一行）。

这些编译预处理代码用来保证让头文件在整个编译过程中只被编译一次，只不过现在又更简单的方式来处理这件事了，它就是#pragma once。条件编译指令都是那种翻译一下就能懂的，我就不一一细讲了。

头文件包含指令

头文件包含指令就一个#include，后面可以是双引号文件名，也可以是尖括号文件名，因为学校里C语言用的是VC6.0，头文件包含用双引号准没错，但是如果你使用了VS2017，那就不是这样了，双引号只能用在包含项目目录的头文件，尖括号是用来包含系统自带的头文件。建议大家直接用VS2017，VC6.0太过时了。

特殊符号

特殊符号，预编译程序可以识别一些特殊的符号。例如在源程序中出现的LINE标识将被解释为当前行号（十进制数），FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。

预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代，生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义同没有经过预处理的源文件是相同的，但内容有所不同。下一步，此输出文件将作为编译程序的输出而被翻译成为机器指令。接下来就是来编译程序本身，生成目标文件。

编译阶段

经过预编译得到的输出文件中，将只有常量。如数字、字符串、变量的定义，以及C语言的关键字，如main，if，else，for，while，{，}，+，-，*，\，等等。预编译程序所要作得工作就是通过词法分析和语法分析，在确认所有的指令都符合语法规则之后，将其翻译成等价的中间代码表示或汇编代码。

优化阶段

优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关，而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。上图中，我们将优化阶段放在编译程序的后面，这是一种比较笼统的表示。

对于前一种优化，主要的工作是删除公共表达式、循环优化（代码外提、强度削弱、变换循环控制条件、已知量的合并等）、复写传播，以及无用赋值的删除，等等。

后一种类型的优化同机器的硬件结构密切相关，最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值，以减少对于内存的访问次数。另外，如何根据机器硬件执行指令的特点（如流水线、RISC、CISC、VLIW等）而对指令进行一些调整使目标代码比较短，执行的效率比较高，也是一个重要的研究课题。

经过优化得到的汇编代码必须经过汇编程序的汇编转换成相应的机器指令，方可能被机器执行。

汇编过程

汇编过程实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序，都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。

目标文件由段组成。通常一个目标文件中至少有两个段：

代码段：该段中所包含的主要是程序的指令。该段一般是可读和可执行的，但一般却不可写。

数据段：主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读，可写，可执行的。

UNIX环境下主要有三种类型的目标文件：

（1）可重定位文件：其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。

（2）共享的目标文件：这种文件存放了适合于在两种上下文里链接的代码和数据。第一种事链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件；第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起，创建一个进程映象。

（3）可执行文件：它包含了一个可以被操作系统创建一个进程来执行之的文件。

汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到，这个就是链接程序的工作了。

链接

由汇编程序生成的目标文件并不能立即就被执行，其中可能还有许多没有解决的问题。例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用等）；在程序中可能调用了某个库文件中的函数，等等。所有的这些问题，都需要经链接程序的处理方能得以解决。

链接程序的主要工作就是将有关的目标文件彼此相连接，也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够诶操作系统装入执行的统一整体。

根据开发人员指定的同库函数的链接方式的不同，链接处理可分为两种：

（1）静态链接：在这种链接方式下，函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合，其中的每个文件含有库中的一个或者一组相关函数的代码。

（2）动态链接：在此种方式下，函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

对于可执行文件中的函数调用，可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小，并且当共享对象被多个进程使用时能节约一些内存，因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。