文本挖掘普及与行业深入

文本挖掘不管从哪种意义上来说,都已经不是什么新名词了。然而相对于拉丁语系的字母组成独立单词,中文的文本挖掘中最大的障碍便在于由字到词时产生的歧义(如“网球拍/卖完了”和“网球/拍卖/完了”)。同时鉴于文本挖掘在企业生产中真正应用价值往往并非显而易见,而其技术成本又较高,使得文本挖掘距离大多数的最终用户,总是有些不那么平易近人。

得益于现在数据分析及挖掘技术的不断发展,分析工具成本不断降低(开源工具的竞争),知识技术日益成熟易学(通过网络传播)。同时越来越动的文档也已被数字化存储,从最初的简单扫描文档,逐步变为可读取,可编辑的电子文档。如今的中文文本挖掘分析,正从走在先前列的互联网企业逐步普及到了各个行业及不同种类的用户。

文本挖掘分析的一般目的都在于对信息的提取,无论是长篇大论,还是只言片语,我们都是希望从中得到与我们所关心的目标有所关联的信息。要想然计算机能从文本这种非结构化的数据中提炼出信息,至关重要的一项工作便是将其结构化。相信大家对于数据库中表的这一概念不会陌生,同样,文本数据的结构化就相当于将一篇文章拆散了以后放入表中,如下图所示:

 text mining

这一过程一般也可称为分词,高效而准确的分词牵涉到数字的处理,日期的处理,名字的识别以及对词性的标注等等。对于分词效果的评估事实上往往依赖于被拆分的文档的专业属性,举个例子来说:。对于文本挖掘尤其是分词来说,往往不存在通用的最佳方案,也就是针对专业领域来说,只有了解行业本身,针对行业本身,才能正确有效地解读行业中的专业文本。因此,可以大胆预言文本挖掘的未来趋势应该在于,专业的数据挖掘工程师或数据分析师,与行业的专业人员进行通力合作,将分析方法和模型算法与行业专家提供的语言知识结合起来,开发出准确高效的文本分析模型。

text mining

几乎各种行业都能从文本挖掘中找到其应用点。媒体企业能更有效地搜集及管理资讯,提炼信息,以及为他们的客户提供更定制化的服务;公共事业类机构能够更好的获取民众反馈,或者是分析社会舆论倾向;政府部门如公安或法院,可以更方便的从案件描述中获取信息,提高效率;医院机构可以从病人的病例或是医生的诊断报告书中整理出病人的病情与病史;即便是普通的商业企业,也能够从客服或是用户反馈中获得指引企业发展的方向。

而对于数据分析师而言,更贴合于实际应用的实践工作,才能更好理解语言的模式与特点,从而提炼到模型与算法的层面,进一步地推广文本挖据,使更多人从中受益。

 

Chinese, Simplified(简体中文)