方正互联网舆情分析
许敏 北大方正技术研究院
北京方正电子政务信息科技有限公司
xumin@founder.com
u 背景
互联网络作为一个正在加速膨胀的思想阵地,已越来越引起足够的重视与运用,互联网的信息繁杂多样,良莠不齐,进步健康有益的信息大量涌现,同时,反动、迷信、黄色的信息也随之而来。加之互联网信息的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,于是,网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。北京方正电子政务技术有限公司推出的方正智思舆情预警辅助决策支持系统,成功地实现了针对互联网海量舆情自动实时的监测分析,有效地解决了宣传部门以传统的人工方式对舆情监测的实施难题,对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都起到了一定的推动作用。
u 方案特点
北京方正电子政务技术有限公司推出的方正智思舆情预警辅助决策支持系统,以整合互联网搜索技术及信息智能处理技术,通过知识管理的方法,对互联网海量信息进行自动抓取、自动分类、自动聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
2 信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取及排重。
2 信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等。
2 信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动生成舆情信息简报、追踪已发现的舆论焦点并形成趋势分析,用于辅助各级领导的决策支持。
应用特点
方正智思知识管理平台软件是一款中文智能信息挖掘与处理的平台软件,它是以北京方正电子政务技术有限公司多年积累的中文信息处理技术、图形图像处理技术和中文自然语言处理技术为基础,融合了最新的人工智能、信息检索、文本数据挖掘和互联网技术的研究成果,实现了对海量文本、图片、视音频等数字化内容进行智能采集、智能处理、智能检索和智能分析的功能。
方正智思舆情预警辅助决策支持系统是以北京方正电子政务技术有限公司自主研发的方正智思为基础,依据市场需求进行针对性的客户需求定制和开发而形成的应用系统,用以辅助用户解决在海量数据环境下所面临的难题,推动各级政府的宣传机构、大众传媒的信息化进程,助力信息传播。
? 特点一:提高工作效率,扩大监控范围
方正智思舆情预警辅助决策支持系统针对互联网的信息进行收集和分析,以计算机智能处理技术辅助舆情信息汇集整理和分析,不仅有效的提高工作效率,改善人工舆情监测的弊端,而且通过本系统,能增加设置媒体舆情监测的数量,扩大舆情监测对像范围,做到了高品质,大范围的深入分析监测,搞高了监测结论的可信性和准确性,降低了人力成本。
? 特点二:生成智能舆情报告(包括舆情简板和舆情专报)
方正智思舆情预警辅助决策支持系统凭借北京方正电子政务技术有限公司多年的科研成果,结合内容管理技术、知识管理技术及互联网相关技术,能够对一段时间范围内新出现的社会舆论热点,生成智能舆情报告。舆情简报图文并貌,直观的体现互联网焦点和热点新闻主题。舆情专报对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态发展趋势。
另外,运用该系统,能够有效的降低人工分析检测误差,通过对网络信息源的采集、整理、监测和分析,不仅有效降低人工分析监测误差,而且利于形成高标准高质量的监测报告,便于相关部门快速掌握社会思想动态,为制定相对应的执行方案提供了可信的分析依据。
? 特点三:辅助判断网络新闻和评论的正面和负面信息
方正智思舆情预警辅助决策支持系统支持人工判断标注信息属性,例如,紧急度、密级度、观点倾向等等。可按照信息属性排列信息,例如按照时间排列、观点倾向排列等等。通过系统的统计分析功能,对某社会突发事件的网络新闻和评论的正面负面信息做数据分析,用直观的图表反映网络新闻热点的发展趋势分析。
u 技术特点
知识管理技术
? 自然语言处理技术
据统计,当前数字化的信息中80%的信息以非结构化的形式存在,其中大部分信息以自然语言描述形式的文本。方正智思舆情预警辅助决策支持系统作为一个信息资讯分析应用系统,能够对自然语言描述文本形式进行深入的分析挖掘。
n 自动分词技术
自动分词技术是中文信息处理与分析的基础。错误的分词将导致完全错误的信息语义。方正智思舆情预警辅助决策支持系统中以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词。
n 自动关键词与自动摘要技术
方正智思舆情预警辅助决策支持系统在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。
? 信息检索技术
n 全文检索技术
方正智思舆情预警辅助决策支持系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。
? 数据挖掘技术
n 自动分类与自动聚类
分类是通过对训练集的学习,得出每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。典型的应用是系统通过对部分已知分类文档的学习训练后,对文档集进行自动分类。它区别于聚类的关键是它有个学习的过程。
聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别(距离)尽可能大,而同一子集中的数据差别(距离)尽可能小。典型的应用例子是,在空间数据库中,根据数据点的空间分布情况,将数据点分成不同的簇。
? 相似搜索与消重
相似搜索是在对象集合中,找到与指定的查询对象相似的对象实例或对象子集。例如:从WEB中找出与指定内容相似的页面、图片或其他信息。
在实际应用中,找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似性,形成专题报道,背景分析等等。
u 市场意义
运用方正智思舆情预警辅助决策支持系统,宣传业务部门可以有效的规范互联网信息,引导健康有益的舆论导向。该系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都有着积极的推动作用