文本分类

王朝百科·作者佚名  2010-02-24
窄屏简体版  字體: |||超大  

文本自动分类 Automatic Text Categorization

何谓文本自动分类:

用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记

基於分类体系的自动分类

基於资讯过滤和用户兴趣(Profiles)的自动分类

基於分类体系的自动分类

所谓分类体系就是针对词的统计来分类

关键字分类,现在的全文检索

词的正确切分不易分辨(白痴造句法)

基於资讯过滤和用户兴趣的自动分类

学习人类对文本分类的知识和策略

从人对文本和类别之间相关性判断来学习文件用字和标记类别之间的关联

请参考:

n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf)

n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf)

n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf)

n 苏金树、张博锋、徐 昕,基于机器学习的文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf)

n 基于统计学习理论的支持向量机算法研究 http://www.youngfan.com/nn/SVM.pdf (.pdf)

n 瓦普尼克(著),张学工(译),统计学习理论的本质 清华大学出版社 2004.6

n SVMlight http://svmlight.joachims.org/

n SVMTorch http://bengio.abracadoudou.com/projects/SVMTorch.html

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航