Learning boost 7--regex 2 - 王朝网络宽屏版

Learning boost 7

regex 2

在上一篇的learning boost 中，我们已经说完了regex中的三个模板类，这一篇我们要来使用这些类。我们通过三个算法来使用正则式，regex_match、regex_search、regex_replace。

regex_match

regex_match算法用来测试一个字符串是否完全匹配正则式。让我们来看一下regex_match的使用：

if (regex_match(str, m, re))

{

...

}

str是一个字符串，可以是string，wstring，char *或者wchar_t *

m是match_results，它通过引用传入参数，来保存匹配的结果，m要和str的类型匹配，可以是smatch，wsmatch，cmatch或wcmatch，用来分别对应string，wstring，char *或者wchar_t*的str。

re就是正则表达式了，一般来说是regex或wregex。

str，m，re的类型如下：

str类型

m类型

re类型

string

smatch (match_results<string::const_iterator>)

regex (basic_regex<char>)

wstring

wsmatch (match_results<wstring::const_iterator>)

wregex (basic_regex<wchar_t>)

char*

cmatch (match_results<const char*>)

regex (basic_regex<char>)

wchar_t*

wcmatch (match_results<const wchar_t*>)

wregex (basic_regex<wchar_t>)

函数的返回值表示字符串是否完全匹配正则表达式，当返回true的时候，m保存了匹配的结果；返回false，m未定义。

下面让我们来看一下，当函数返回true的时候，m是怎么样的。

m.size() == re.mark_count()

还记得re.mark_count()返回的是什么吗？在上一篇中说的是re.mark_count()返回的时正则式的“组数”，并没有详细解释。这里我要详细解释一下。

其实，这个“组数”在boost的regex中叫做sub-expression。sub-expression就是在正则式中使用小括号括起来的一部分，正则式本身是一个sub-expression，所以re.mark_count()等于小括号对数+1。

m.prefix()和m.suffix()

这两个返回的是sub_match类型（相当于一个迭代器组）。在regex_match算法中，这两个返回的sub_match都是空的，他们的值如下：（sub_match继承于pair，所以有first和second成员哦）

m.prefix().first == str.begin()

m.prefix().second == str.begin()

m.prefix().matched == false

m.suffix().first == str.end()

m.suffix().second == str.end()

m.suffix().matched == false

因为regex_match是完全匹配，即整个字符串和正则式匹配，所以前缀和后缀都是空的。

m[0]

返回第0个匹配的，由于regex_match是完全匹配，所以

m[0].first == str.begin()

m[0].second == str.end()

m[0].matched == true

m[n] , n<m.size()

返回第n个匹配的sub-expression。

m[n].matched 表示第n个sub-expression是否在字符串中存在。整个regex匹配，但是sub_exp可能匹配的是空的，例如”(a*)”就有可以匹配空。

m[n].first和m[n].second 表示匹配的范围。如果匹配空的话，都为str.end()。

根据我的测试，m[1],m[2],...,m[n]的顺序是按照正则式的左小括号的顺序来的，例如对于正则式”((a)bc)d(efg)”，如果匹配了一个字符串的话（字符串只可能是”abcdefg”），则

m[0] == “abcdefg” （sub_match重载了==运算符使得可以和一个字符串比较）

m[1] == “abc”

m[2] == “a”

m[3] == “efg”

regex_match的其它用法

regex_match(str,re)

只测试是否匹配，不需要匹配的结果

regex_match(beg,end,re)

输入的是迭代器

regex_match(beg,end,m,re)

注意m的类型为match_results<iterator>

regex_match(str,m,re,flag)

flag是匹配选项，默认是的regex_constants::match_default

regex_search

regex_search的用法基本上和regex_match一样。

if (regex_search(str, m, re))

{

...

}

regex_search不要求str完全匹配re，只要str中的一个字串匹配re就可以了。所以，m.prefix()和m.suffix()不一定为空。

regex_search是从左往右匹配，而且尽量匹配长的字串。

（待续）