信息增益(information gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。
信息增益(Information gain, IG)通过统计某个特征在一片文档中出现或者不出现的次数来预测文档的类别,IG的计算如下式所示
其中,,,。,,分别为类别的文本数、出现特征的文本数以及类别中的特征出现的文本数,为文本集中的所有文本数目。并且,,,同时,若,则设置。的值越大,则说明该词条对整个分类提供的信息量越大。
笑话军事旅游美容女性百态母婴家电游戏互联网财经美女干货家饰健康探索资源娱乐学院 数码美食景区养生手机购车首饰美妆装修情感篇厨房科普动物植物编程百科知道汽车珠宝 健康评测品位娱乐居家情感星座服饰美体奢侈品美容达人亲子图库折扣生活美食花嫁风景 | 首页 |
信息增益(information gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。
信息增益(Information gain, IG)通过统计某个特征在一片文档中出现或者不出现的次数来预测文档的类别,IG的计算如下式所示
其中,,,。,,分别为类别的文本数、出现特征的文本数以及类别中的特征出现的文本数,为文本集中的所有文本数目。并且,,,同时,若,则设置。的值越大,则说明该词条对整个分类提供的信息量越大。