语体风格是人们在语言表达活动中的个人言语特征,是人格在语言活动中的某种体现。这种风格可在一定程度上通过数量特征来刻画。
能够区别文学作品的特征主要有
用词、句式、修辞手法、中心意象、主题等等
能利用的特征有
语音、字、词、句子、段落等等语篇结构的信息。
计算风格学可被应用来解决“作者考证”这种问题。当然要十分谨慎。
如:捷泽等学者关于《静静的顿河》的作者考证。《红楼梦》的作者问题研究1970年,赵冈提出了使用“的”、“了”、“在”、“几”、“着”5个字的出现频率来研究《红楼梦》的作者问题,得出了前80回和后60回出自不同人之手的结论。1980年,在威斯康辛大学举办的首届国际《红楼梦》研讨会上 ,陈炳藻发表《从词汇上的统计论〈红楼梦〉的作者问题》一文。陈炳藻教授的研究1986年,陈炳藻教授公开发表了《电脑在文学上的应用:〈红楼梦〉与〈儿女英雄传〉两书作者用词的比较》一文;之后又出版了《电脑红学:论〈红楼梦〉作者》的专著。
陈炳藻将《红楼梦》一百二十回本按顺序编成三组,每组四十回。并将《儿女英雄传》作为第四组进行比较研究。
从每组中任取八万字,分别挑出名词、动词、形容词、副词、虚词这五种词,通过计算机程序对这些词进行编排、统计、比较和处理,进而找出各组相关程度。
结果发现《红楼梦》前八十回与后四十回所用的词汇正相关程度达78.57%,而《红楼梦》与《儿女英雄传》所用词的正相关程度是32.14%。由此推断得出前八十回与后四十回的作者均为曹雪芹一人的结论。张卫东、刘丽川的反驳深圳大学学报(人文社会科学版)1986年 01期 发表了《〈红楼梦〉前八十回与后四十回语言风格差异初探》一文。利用某些用字、用词及回尾处理等差异做了比较研究。
一、在录入文本时使用了GB2312汉字编码体系。在GB2312的6763个汉字以外,还有240个汉字,这其中只有10个字同时出现在前后两部分。其中210字只出现在前80回,20字只出现在后40回。而重要的是,有些字并非只出现了一次。
1、有些脏字在前80回多次出现,且为日常骂人话,然而在后40回根本没有出现。
2、𣢑、嗐、搳
“𣢑”通“嘻”,前80回混用,后四十回统一为“嘻”
“嗐”与“咳”,前80回混用,后40回只用“嗳”
“搳”是“划(拳)”的异体字,前80回用“划”,后40回用“搳”
二、每一回结尾的格式
前八十回大致有五种
1.要知端的(端详),(且听)下回分解。
2.正是—— (或者后跟一联韵文)
3.自然终止行文
4.不知……,((且听)下回分解。)
(……),(且听)下回分解。
5.后(下)回再(便)见
后四十回基本都是“未知(不知、要知、欲知)……(如何),(且听)下回分解。”
因此前后两部分并非一人所作。李贤平的进展1987李贤平发表了《〈红楼梦〉成书新说》作者选择了四十七个虚字的出现频率,有时还用到句长分布。
(1)十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃
(2)九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。
(3)十三个常用的白话虚字:了、的、着、一、不、把、让、向、往、是、在、别、好。 (4)十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、很、偏。
(5)后缀于名词的“儿”字和后缀于副词、形容词和动词的“儿”字。
采用了各种统计分析方法(主要有主成份分析,典型相关分析,多维尺度法,广义线性模型,类卡方距离与相关系数等等)
利用以上信息推断出以下结论:
《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。
《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹。
除了使用词语频率的方法以外,许多文本信息都可供使用。例如句长和词长可以代表人们造词句的风格。
句长是句子中的单词数,词长是词中的音节数,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长。
平均词长M=语料中音节总数L/单词总数N
目前利用到的特征:
常用字反映写作倾向(是否应去掉专有名词);
虚词能独立于文本内容;
罕用字——频次高的话,比较有说服力;
句型的缺点是自动识别错了,影响结论。
张首映指出,单个作家的“语言风格”是不可求证的,(文学自由谈,1988(4))
单个作家的“语言风格”,无论在时间之轴上,还是在空间之维中,都必定不可能产生。林语堂式的幽默,沈从文式的淡雅,都是不同的言语风格,而不是语言风格。因此计算起来可能很难。