本文是语言学论文,现有词长研究使用的词长测算方法多样,例如计算每个单词所含的字母数、音节数、字位数、音位数、部件数等等,所得研究结果因测量方式而异。一般认为只有音节数是适用于所有人类语言的测量单位(Popescuetal.2013:225),但字母数也是德语词长的常用测量方式。至于不同的词长测量单位会对同一批德语语料的研究结果产生何种差异,尚没有系统的对比研究。研究者之所以会选用不同的单位测算词汇长度,实际上可归因于对“词”有不同的理解。什么是词?什么是最适合德语词的长度划分单位?只有明确了这两个问题,德语词长研究才有稳固的基础。因此,本文在尝试回答前文提出的两个研究问题之前,先对“词”的概念定义进行了梳理,并在此基础上设计研究方案,以探寻最适合德语书面语的词长测量方法。本研究综合考虑词汇的屈折变化和重复使用情况,分别对先导语料的词形形符、词形类符、词目形符和词目类符的长度特征进行了统计和对比。分析发现,由上述四种方案得到的数据反映了不同情境下德语的词汇特征。实际上,真实的人类语料结合量化的统计方法,有助于我们把握语言的整体特征,揭示语言演化走向。现有词长历时研究已经初步发现了一些跨语言共性,但仍有必要研究更多类型的语料、更多不同的语言,以便进一步揭示人类语言的历时演化趋势及语言特点。
......
1绪论
现有词长研究的考察维度呈现出三大特点,即“多印欧、少其他”“同作者、同文体”“多共时、少历时”:首先,对于不同人类语言词长特点的研究程度极不均衡,这主要由研究者的生活及研究背景有关。受到欧洲计量语言学传统的影响,围绕印欧日耳曼语族(尤其是德语、英语)、斯拉夫语族和罗曼语族语言的研究尤为丰富,其中德语词长研究已涵盖语言的各个发展时期。经典理论、模型大多肇端于与印欧语系语言相关的研究。近些年,随着中国计量语言学团队的壮大,汉语研究也日益丰富。相较而言,其他语言的词长研究数量及主题有限,较为常见的是词长分布及分布模型研究。其次,现有研究出于语料同质性的考虑,一般选择属于同一作者或同一类型的短篇、共时文本进行考察。其中,研究者尤为偏好文学及书信文本。上述语料选取方式使得相关研究具有散点式特征,成果尚未集合成面,也缺少共时层面的系统、跨文体探究。研究者假定不同系统因素会对词长统计结果产生影响,可是如果在研究时完全规避这些因素,又会在一定程度上限制我们对这些“边界条件”的了解。再者,如前文所述,目前各语种词长研究多为共时研究,历时分析较少。从研究方法看,随着计量语言学的发展与词长研究的深化,研究方法愈发多元化。早期论文的主体往往是各个语料文本的词长分布数据,或罗列分布模型的拟合结果,研究方法较为单一,结果呈现方式过于简单,缺少深入的拓展讨论。而在现阶段,研究者会根据研究问题融合新的测量指标或新的实验方法,进一步增强了研究的科学性。不过,当前词长研究选用的方法是否多元,常与所研究的语言有关。针对特定语言的研究越多、越深入,相关研究者就会越积极活跃地拓展、革新研究方法。
.....
2理论基础与研究方法
2.1理论基础
词汇长度是与多学科相关的语言单位。从研究目标看,计量语言学词长研究力求通过数学逻辑与定量方法,科学、精确、动态地分析语言现象、语言结构以及各结构属性之间的关联,这与本研究探究德语书面语词汇长度的跨文本共时特征与历时演化规律的研究目的紧密契合。故此,本研究拟采用计量语言学研究方法,围绕前文提出的研究问题,对真实语言交际活动中产生的德语文本展开系统研究。计量语言学诞生于20世纪,是基于数理语言学语言统计研究的现代语言学分支(冯志伟2012:259)。结构主义将“系统”作为最为核心的概念引入语言学,研究范式为科学概念的精准化奠定了基础,“并为其数学化创造了前提条件”(Köhler1986:6;科勒2020:4)。计量语言学旨在通过真实语言的量化分析,提炼语言现象中蕴藏的普遍规律,精准描写并深入理解语言系统的运作及发展方式,以揭示文本结构和语言的特性、语言的自适应机制、演化的规律与动因,进而发现各类自然语言定律,构拟语言理论。迄今为止,各国学者已经发现了一系列可能普遍适用于不同语言的定律与语言规律,为跨语言比较、语言类型学划分以及解释人类语言普遍性规律等工作提供了新视角与新发现。鉴于简单线性回归只含有一个自变量,模型较为简单,在“省力原则”的驱动下,我们先对各文体内部、不同时段的单位移超泊松分布参数进行皮尔逊相关性分析。
部分符合门策拉-阿尔特曼定律的语言层级关系
2.2研究语料
语言的系统规律与历时演化是人类探究语言实体的核心所在。由于语言表达的“无限性与信息的不充分性”(刘海涛2017:33),我们难以直接观察“语言”本身,往往需要借助特定载体、结合有效的方法路径。不同学科及其分支均有其常用的考察方法。在计量语言学领域,研究的辅助载体为真实的语言文本,“所以也有人把计量语言学理论称为文本理论”(刘海涛2017:33)。故此,本研究将以真实的德语语料为研究对象。在面对抽象、复杂、动态的人类语言系统时,可观、可感、可测的词汇长度为我们架设起了把握其他抽象语言属性的桥梁。在考察词形形符时,采用的是“所见即所测”的研究方法,即所有词汇的屈折变化以及语料中的所有词汇重复均包括在内。所得数据是实际语言使用情况的综合体现。与之相反的是词目类符,即不关注词汇的形态发生了何种变化、使用频率如何,只将词汇唯一的基本形式纳入统计范围。这体现出德语语言在不同书面文体中的共性特性。基于此,我们进一步提出疑问:单位移超泊松分布的模型参数值能否反映出不同文体间的细微差异?因为同组单位移超泊松分布的双参数具有很高的相关性,所以我们只对三类文体、不同时段的参数a值关系展开考察。本章将基于360篇出版于17-19世纪的德语文献,采用计量语言学方法,分别刻画“文学”“应用文”“学术”三类文体内部的词汇长度历时发展趋势,展开跨文体对比,探索三者间的共性与个性,并结合德语发展史、社会变迁过程以及人类的认知特点分析成因及演化动力。
1850-1899年间三类文体与《德语频率词典》的词长类占比情况
3德语词长测量方式的差异性分析.......................................................................60
3.1测量单位对词长测量结果的影响............................................................61
3.2词形变化对词汇长度的影响....................................................................74
3.3小结与讨论................................................................................................85
4德语词长特征的跨文体共时考察.......................................................................89
4.1平均词长的跨文体共时对比....................................................................90
4.2词类平均词长的跨文体共时对比............................................................99
4.3词长分布的跨文体共时对比..................................................................108
5德语词长演化的跨文体历时考察.....................................................................131
5.1平均词长的跨文体历时对比..................................................................133
5.2词类平均词长的跨文体历时对比..........................................................138
.......
5德语词长演化的跨文体历时考察
5.1平均词长的跨文体历时对比
与第四章中共时维度的词汇长度考察方式类似,本研究首先选取平均词长作为观测指标。我们仍然按照“是否考虑屈折变化”的标准,将词汇分为在实际文本中“所见即所测”的“词形组”和基于词汇基本形态的“词目组”,并在两组内继续基于形符和类符计算动态平均词长和静态平均词长。目的是观察三类文体内部,不同形态的词汇的长度以及人们的使用偏好在300年间是否发生了改变,德语词长总体具有怎样的历时演化趋势。经SPSS的单样本Kolmogorov-Smirnov检验(K-S检验),三类文体、六个时段的各组20个文本基于词形形符、词形类符、词目形符、词目类符的四组平均词长数据均符合正态分布。我们利用统计软件IgorPro,将三类文体时段1至时段6“词形组”和“词目组”的静态平均词长和动态平均词长分别与线性公式y=ax+b进行了拟合。图5.1为基于词形(有屈折变化)的两组数据,图5.2展示了“词目组”(词汇原形)的长度特征,拟合参数详见表5.1。换言之,单位移超泊松分布的参数是否对文体、时间等边界条件敏感,并会将差异表现在其数值上?下面我们将围绕单位移超泊松分布参数与文体、时间等影响因素间的关系进行探究。上一小节中的平均词长历时分析清楚地展示出,词汇长度伴随着时间内的推移不断增加。如果各文体内部不同时段的参数值存在线性关系,或是具有其他可用数学模型描述的非线性关系,我们是否就有可能根据已知的文体、时间数据推测特定历史时段的词长分布特征,乃至是预测未来的演化走势?
5.2词类平均词长的跨文体历时对比
在探究了三类文体的平均词长历时演化规律后,我们继续分词类展开考察。“4.2节”的词类平均词长共时研究显示,不同词类的平均词长有别,且具有各异的跨文体特征。图5.3展示了三类文体中动词、名词和形容词三大类10个子词类的演化趋势,赋码标签及其含义参见表5.2。本章前两节分别考察了三类文体德语语料整体词汇长度的演化趋势,以及不同词类长度各异的发展特征。德语文本中平均词汇长度的历时增长是否意味着其词长分布特征也发生了改变?本节将对17-19世纪文学、应用文和学术文本中基于词形形符的动态平均词长分布和基于词目类符的静态词长分布展开考察。图5.4勾勒了1600-1899年间三类文体内部不同词形形符词长类占比的历时变化,横轴表示时段,纵轴为各词长类词汇所占的比例。可以发现,在真实的文本中,“应用文”和“学术”的单音节与双音节词占比逐渐降低,而包含三个及以上音节的词汇数量随之增加。在六个时段内,“文学”中的单音节词占比始终保持在50%以上,但属于词长类1与词长类2的词汇比例一直处于上下波动的状态。虽然三类文体的词长类占比情况都在时间因素的作用下发生了一定变化,但是其动态词长分布的“长尾”特征并没有改变。通过“4.3.1节”的多模型拟合结果对比,已知单位移超泊松分布可以很好地描述各时段、各文体的德语动态词长分布。本研究中历时的德语文学、应用文、学术语料,以及经前人考证的书信文本(Ammermann2001),均符合统一的分布模型规律。按照王士元(2000)对语言演化研究的时间尺度划分,本章属于中观史层面的研究34。
........
6结语
语言是人类思想的外化,是在人类社会交往活动中逐渐形成的复杂适应性系统。其复杂性、动态性及适应性体现在语言使用、语言结构、语言演化、语言习得等方面(Ellis&Larsen-Freeman2009)。从古至今,世界各地不同语种的使用者采用各异的方式探究了语言系统的特征与规律。语言为什么会具有某种特性?语言为什么会产生变化?要回答这两个问题,从本质上讲都需要围绕语言作为复杂动态适应系统的特性进行讨论。意义、使用、认知、文化的互动形成了语言这个复杂适应性系统(Bybee2010:194)。其中,词汇不仅是基石,也是与语音、句法、语义等其他语言单元相互依存的重要组成部分。长度作为词汇最基本、最显著的特征之一,在一定程度上体现了语言单位的复杂度,也是一项重要的语言类型学指标。Köhler(1986)将长度置于词汇协同系统的核心位置,刻画了词长与其他语言属性间紧密的互动关系。也就是说,词汇长度一方面能反映词汇及语言系统的样貌,另一方面,它的改变会牵动其他语言元素发生变化,可能进而带来语言的整体演化。鉴于上述特点,词长是语言本体研究的绝佳切入点。鉴于不同方案得到的词长结果具有不同的语言学意义,因此在开展词长研究时应根据研究问题,选择最能反映相关语言特征的方案测算词汇长度。但需特别注意的是,在考察各词长类的使用词频时,需要先以“词形组”“词目组”为划分,分别在组内利用形符和类符数据进行计算,否则会出现一个单词因为不同的形态变化而被归入不同词长类的问题。以前测结果为基础,我们选定音节作为后续主体研究的词长测量单位。同时,词形形符是语言实际使用情况的直观体现,而词目类符则相当于语料的词汇表,反映了相对静态的词汇特征。
参考文献(略)
参考文献(略)