信息过滤系统对网站信息发布、公众信息公开申请和网站留言等模块内容实现提交时的自动过滤处理,发现有谩骂、诽谤、等非法言论和问句进行实现自动过滤,并给用户友好的提示,同时向管理员提交报告。从而大大提高了审核速度和效率。
数据抽取
系统开始工作后,按照抽取策略定时抽取指定数据源中要过滤的数据对象,系统管理员可以设定多种不同的监控数据源以及数据抽取的频率,自定义工作只需一次做完后抽取工作就会自动进行,以后也无需再设定,除非是修改它。
文本处理
此模块负责将特殊的文件内容进行处理操作,真对具有HTML内容的文本去除html标签,抽出有用的文本,生成以空格为分隔的纯文本内容。去除标签的文本内容是我们分析的来源。
自动过滤
系统将根据文本处理过后的内容进行自动过滤,它能够有效识别和过滤各种非法文本信息。根据既定的语义范式和过滤词表进行自动对比,在其中发现有害信息。
审核数据
工作人员对过滤后的结果进行人工校验,人工校验后方可进行数据发布处理。
配置管理
此模块为系统管理员配置数据抽取策略及系统其它需要配置参数的模块。
词表和语义范式维护
分词词典维护:可真对本行业专业词进行增加、删除和修改操作,以便信息过滤更加准确。
过滤词表维护:有害文本关键词和其它需要过滤的词表维护。
语义范式维护:系统管理为自动过滤设定语义范式和范式策略的维护。
统计报告
系统根据过滤结果生成过滤情况的统计报告,可生成柱状图、饼状图和条状图,以统计图表和二维表格的形式展现,以便分析系统运行状况和用户使用状况。
基于语义网的信息资源过滤
众所周知,今天网上的内容和信息都是设计给人阅读的,而不是让计算机“阅读”的。语义网是一个能够理解人类语言的智能网络,可识别信息的意义,并对信息自动进行解释、交换和处理。本产品的中文语义匹配是语义范式和语义矩阵建立的智能文本分析系统,它可筛选出其使用者所需要的信息,并自动将这些信息传送到不同的存储位置中去。