第34章 仿函数和区间
Mathew Wilson /著
刘未鹏(pongba) /译
34.1 语法混乱
许多标准库算法都作用于“区间”上——这里“区间”被定义为“一对迭代器”[Aust99]。这种抽象具有极其强大的能力,其应用已然达到了影响STL乃至现代C++的程度。
下面是一个简单的例子,它往一个vector中读入整数:
std::fstream f("integers.dat", std::ios::in | std::ios::out);
std::copy( std::istream_iterator<int>(f)
, std::istream_iterator<int>()
, std::back_inserter(v2));
在该例中,std::copy的第二个参数是个缺省构造的迭代器,其作用是指示区间的结尾。从物理上说,这两个迭代器之间并无任何联系,但istream_iterator的实现决定了它的缺省构造实例可以被解释为区间的(逻辑[1])结尾。
很多时候,我们将算法运用于一个区间上——这个区间是从容器或类似容器的对象中取得的,就像这样:
struct dump_string
{
void operator ()(std::string const &) const;
};
std::vector<std::string> > strings = . . .;
std::for_each(strings.begin(), strings.end(), dump_string());
然而,很多时候这会变成一件单调乏味的工作,因为我们得一次次的重复调用begin()和end()。虽然这还远没到被称为“缺陷”的地步,甚至连“微瑕”都算不上,但是,在某些情况下,这会令人痛苦:考虑当我们使用某些“伪容器”——例如glob_sequence(20.6.3),其创建仅仅是为了引出一个区间——的时候[2]情况会如何。现在让我们假想(因为我们想要更为深入的研究这个问题):我们想要确定《Imperfect C++》的所有头文件中到底有多少大于1024字节的?
struct is_large
: public std::unary_function<char const *, bool>
{
bool operator ()(char const *file) const
{
. . . // Return true if "file" > 1024 bytes
}
};
glob_sequence gs("/usr/include/", "impcpp*");
size_t n = std::count_if(gs.begin(), gs.end(), is_large());
这里,gs没有任何其它用途,其存在(指”gs”这个名字)只会污染局部名字空间。
当我们想要在同一个作用域(scope)中枚举两个或多个区间时,类似的情形就会产生。结果是:我们可以在当前作用域中引入多个变量,每个代表一个不同的[begin,end)(17.3.2),或者我们还可以使用double-scoping技巧(17.3.1)。
34.2 for_all() ?
既然我们已经给出了区间枚举的一般形式,那么创建标准库算法的区间等价形式也就不是一件难事了。我们可以为std::for_each()创建一个与容器兼容的版本——我们暂且称它为for_all():
template< typename C
, typename F
>
inline F for_all(C &c, F f)
{
return std::for_each(c.begin(), c.end(), f);
}
通常情况下这是个合理的实现——因为大多数容器(标准的以及其它的容器)都提供begin()和end()。
除了可以减轻令人厌烦的两次调用(一次取得区间头(例如begin())一次取得区间尾(例如end())之外,更进一步,对于“伪容器”,这还可以缓解“眼疲劳”。现在,有了这种基于区间的“浓缩版”的算法,我们的glob_sequence就可以声明为匿名的临时对象:
n = std::count_if( glob_sequence("/usr/include/", "impcpp*")
, is_large());
而当你正着手于产品代码时,这避免了语法混乱,并能够确实地提高代码的可读性。
一些批评者可能会认为,在单个语句中引入如此多的代码量正是C++背离C精神[Como-SOC]的另一明证;当然,想要争辩说“没有任何东西被隐藏了起来(nothing is hidden)”是不可能的。如果就那个仿函数而言,在这一点上我会让步。但是,否定区间访问和枚举的“隐蔽性”的辩词只不过是“看起来很正确”而已。我们同样可以争辩说我们应该踢开所有的库函数而改用手写汇编代码。STL的迭代器(iterator)概念(concept)[Aust99,Muss01]是为了枚举效率的最大化而设计的——通常“误用”序列的唯一途径是使用了更高层的迭代器概念的行为,但是for_each仅仅需要输入迭代器(input iterator)。
[1] 译注:注意,并非物理结尾。因为缺省构造的istream_iterator实例从物理上说并非指向一个内存中的物理区段的结尾。
[2] 作者注:我弄出这么一个例子有点自作自受——这是因为我想要以这种方式来扩展STL。在许多情况下,像istream_iterator的例子那样把一个枚举区间的开头封装在一个(非缺省构造的)迭代器中(然后以一个缺省构造的istream_iterator来表示区间的(逻辑上的)结尾)是个可行的方案——Boost中的文件系统(file-system)组件就是这样工作的。然而,这是在从逻辑上将区间(强行地)拆开(即,将作为一个整体的”区间”拆开为两个迭代器——译注)——这极大的困扰了我,并使我决定不去遵从它——当然,你可以持不同看法。