Learning boost 7
regex 2
在上一篇的learning boost 中,我们已经说完了regex中的三个模板类,这一篇我们要来使用这些类。我们通过三个算法来使用正则式,regex_match、regex_search、regex_replace。
regex_match
regex_match算法用来测试一个字符串是否完全匹配正则式。让我们来看一下regex_match的使用:
if (regex_match(str, m, re))
{
...
}
str是一个字符串,可以是string,wstring,char *或者wchar_t *
m是match_results,它通过引用传入参数,来保存匹配的结果,m要和str的类型匹配,可以是smatch,wsmatch,cmatch或wcmatch,用来分别对应string,wstring,char *或者wchar_t*的str。
re就是正则表达式了,一般来说是regex或wregex。
str,m,re的类型如下:
str类型
m类型
re类型
string
smatch (match_results<string::const_iterator>)
regex (basic_regex<char>)
wstring
wsmatch (match_results<wstring::const_iterator>)
wregex (basic_regex<wchar_t>)
char*
cmatch (match_results<const char*>)
regex (basic_regex<char>)
wchar_t*
wcmatch (match_results<const wchar_t*>)
wregex (basic_regex<wchar_t>)
函数的返回值表示字符串是否完全匹配正则表达式,当返回true的时候,m保存了匹配的结果;返回false,m未定义。
下面让我们来看一下,当函数返回true的时候,m是怎么样的。
m.size() == re.mark_count()
还记得re.mark_count()返回的是什么吗?在上一篇中说的是re.mark_count()返回的时正则式的“组数”,并没有详细解释。这里我要详细解释一下。
其实,这个“组数”在boost的regex中叫做sub-expression。sub-expression就是在正则式中使用小括号括起来的一部分,正则式本身是一个sub-expression,所以re.mark_count()等于小括号对数+1。
m.prefix()和m.suffix()
这两个返回的是sub_match类型(相当于一个迭代器组)。在regex_match算法中,这两个返回的sub_match都是空的,他们的值如下:(sub_match继承于pair,所以有first和second成员哦)
m.prefix().first == str.begin()
m.prefix().second == str.begin()
m.prefix().matched == false
m.suffix().first == str.end()
m.suffix().second == str.end()
m.suffix().matched == false
因为regex_match是完全匹配,即整个字符串和正则式匹配,所以前缀和后缀都是空的。
m[0]
返回第0个匹配的,由于regex_match是完全匹配,所以
m[0].first == str.begin()
m[0].second == str.end()
m[0].matched == true
m[n] , n<m.size()
返回第n个匹配的sub-expression。
m[n].matched 表示第n个sub-expression是否在字符串中存在。整个regex匹配,但是sub_exp可能匹配的是空的,例如”(a*)”就有可以匹配空。
m[n].first和m[n].second 表示匹配的范围。如果匹配空的话,都为str.end()。
根据我的测试,m[1],m[2],...,m[n]的顺序是按照正则式的左小括号的顺序来的,例如对于正则式”((a)bc)d(efg)”,如果匹配了一个字符串的话(字符串只可能是”abcdefg”),则
m[0] == “abcdefg” (sub_match重载了==运算符使得可以和一个字符串比较)
m[1] == “abc”
m[2] == “a”
m[3] == “efg”
regex_match的其它用法
regex_match(str,re)
只测试是否匹配,不需要匹配的结果
regex_match(beg,end,re)
输入的是迭代器
regex_match(beg,end,m,re)
注意m的类型为match_results<iterator>
regex_match(str,m,re,flag)
flag是匹配选项,默认是的regex_constants::match_default
regex_search
regex_search的用法基本上和regex_match一样。
if (regex_search(str, m, re))
{
...
}
regex_search不要求str完全匹配re,只要str中的一个字串匹配re就可以了。所以,m.prefix()和m.suffix()不一定为空。
regex_search是从左往右匹配,而且尽量匹配长的字串。
(待续)