
图灵估计 (Good-Turing Estimates/Discounting) 用来平滑不常出现的N连文法 (n-gram) 。对于出现r次的n-gram来说,经过图灵估计后,新的出现次数r * 为:
其中nr代表n-gram在训练集中出现r次的个数。一般而言,图灵估计很少单独使用,而是做为其他平滑化技术的前端处理,例如Katz平滑。
取自"http://zh.wikipedia.org/w/index.php?title=%E5%9B%BE%E7%81%B5%E4%BC%B0%E8%AE%A1&variant=zh-cn"