数据结构大学教程之数据结构及其基本概念(2)

1.3 算法和算法分析

Algorithms and Algorithm Analysis

1.3.1算法

所谓算法（Algorithm）是对问题求解步骤的一种描述，是指令的有限序列，其中每一条指令表示一个或多个操作。在CLRS中是这样给出算法的定义的：Informally, an algorithm is any well-defined computational procedure that takes some value, or set of values, as input and produces some value, or set of values, as output. An algorithm is thus a sequence of computational steps that transform the input into the output.

一个算法必须满足以下五个重要特性：

1．有穷性对于任意一组合法输入值，在执行有穷步骤之后一定能结束，即：算法中的每个步骤都能在有限时间内完成；

2．确定性对于每种情况下所应执行的操作，在算法中都有确切的规定，使算法的执行者或阅读者都能明确其含义及如何执行。并且在任何条件下，算法都只有一条执行路径；

3．可行性算法中描述的操作都可以通过已经实现的基本操作运算有限次实现之；

4．有输入作为算法加工对象的量值，通常体现为算法中的一组变量。有些输入量需要在算法执行过程中输入，而有的算法表面上可以没有输入，实际上已被嵌入算法之中；

5．有输出它是一组与输入有确定关系的量值，是算法进行信息加工后得到的结果。

1.3.2算法设计的原则

设计算法时我们应当严格考虑：

1．正确性（Correctness）

首先，算法应当满足以特定的“规格说明”方式给出的需求。对算法是否“正确”的理解可以有以下四个层次：

a．程序中不含语法错误；

b．程序对于几组输入数据能够得出满足要求的输出结果；

c．程序对于精心选择的、典型、苛刻的几组输入数据能够得出满足要求的结果；

d．程序对于一切合法的输入数据都能得出满足要求的结果；

通常以第c层意义的正确性作为衡量一个算法是否合格的标准。因为作为输入，我们有时候不可能提前做出所有的预期。

2. 可读性(Readability)

算法主要是为了人的阅读与交流，其次才是为计算机执行。因此算法应该易于人的理解；另一方面，晦涩难读的程序易于隐藏较多错误而难以调试；有些程序设计者总是把自己设计的算法写的只有自己才能看懂，这样的算法反而没有太大的价值。

3．健壮性（Rubustness）

当输入的数据非法时，算法应当恰当地作出反映或进行相应处理，而不是产生莫名奇妙的输出结果。这就需要我们一定要充分的考虑异常情况（Unexpected Exceptions）并且，处理出错的方法不应是中断程序的执行，而应是返回一个表示错误或错误性质的值，以便在更高的抽象层次上进行处理。

4．高效率与低存储量需求

通常，效率指的是算法执行时间；存储量指的是算法执行过程中所需的最大存储空间。两者都与问题的规模有关。

1.3.3算法效率的衡量方法与准则

通常有两种衡量算法效率的方法:

1．事后统计法

缺点：

(1)必须执行程序才能进行判断

(2)其它因素（如硬件、软件环境）掩盖算法本质

2.事前分析估算法

主要是看消耗的时间。和算法执行时间相关的因素：

1．算法选用的策略

2．问题的规模

3．编写程序的语言

4．编译程序产生的机器代码的质量

5．计算机执行指令的速度

一个特定算法的“运行工作量”的大小，只依赖于问题的规模（通常用整数量n表示），或者说，它是问题规模的函数。假如，随着问题规模n的增长，算法执行时间的增长率和f(n)的增长率相同，则可记作：

T (n) = O(f(n))

称T (n) 为算法的渐近时间复杂度（Asymptotic Time Complexity）,简称时间复杂度。O是数量级的符号。

下面我们探讨一下如何估算算法的时间复杂度

算法 = 控制结构 + 原操作（固有数据类型的操作）

算法的执行时间=原操作(i)的执行次数×原操作(i)的执行时间

算法的执行时间与原操作执行次数之和成正比

我们先介绍一个概念：

for(j=1;j<=n;++j)

for(k=1;k<=n;++k){++x;x+=x;}

语句重复执行的次数被称为语句的频度（Frequency Count）上程序段中++x的语句频度就是n2。

我们经常采用：从算法中选取一种对于所研究的问题来说是基本操作的原操作，以该基本操作在算法中重复执行的次数作为算法运行时间的衡量准则。这个原操作多数情况下是最深层次循环内的语句中的原操作。

例如：

for (i=1; i<=n; ++i)

for (j=1; j<=n; ++j) {

c[i,j] = 0;

for (k=1; k<=n; ++k)

c[i,j] += a[i,k]*b[k,j];

}

该算法的基本操作是乘法操作。时间复杂度为 O(n3)

1.3.4算法的存储空间(Memory Space for Algorithms)

算法的空间复杂度S(n) = O(g(n))

表示随着问题规模n的增大，算法运行所需存储量的增长率与g(n)的增长率相同。

算法的存储量包括:

1．输入数据所占空间;

2．程序本身所占空间；

3．辅助变量所占空间。

若输入数据所占空间只取决与问题本身，和算法无关，则只需要分析除输入和程序之外的额外空间。若所需额外空间相对于输入数据量来说是常数，则称此算法为原地工作。