简介:全球有多少种语言,这是一个很难回答的问题。国际语言学界通常根据世界少数民族语文研究院(SIL)出版的Ethnologue提供的信息来确定语言的数量,但该书在收录世界语言资料时缺乏一定的严肃性。主要是由于语言身份的鉴定在国际上缺乏一种学术界比较公认的科学的可以量化的识别方法。文章围绕美国《科学》杂志于2009年讨论中国语言识别问题的文章为引子,讨论了语言身份鉴定过程中存在的一些问题,反驳了该文对中国语言识别工作的一些污蔑不实之词,提出需建立一种互通度与语言结构差异度相结合的语言身份鉴定方法,以引起讨论,求得一种国际语言学界都能够接受的语言身份识别的理论和方法。文章还认为在互通度标准以及技术在实践中还没有能够取得学术界一致认可之前,指派最终的语言代码是不成熟的做法。
简介:树库是一种记录每个句子句法分析结果的标注语料库。文章介绍的是美国宾州大学构建的中文树库(CTB)。描写句子的谓词一沦元结构是CTB标注的一个重要目标。因此,它在句法标注中刻意强调的是以下三个抽象的语法关系:中心语补足语关系、中心语一附加语关系和并列关系。在CTB中每个短语节点所支配的括号对或子树只表示上述的一种语法关系。此外,CTB在语法体系上也有很多特点,文章仅选取补足语、汉语的标句词“(DEC)”以及遵循语杠理论的词性标注准则等三个汉语语法问题来进行讨论。如果我们同意句子的谓词~论元结构描写是树库建设的一个重要目标,那么上述三个问题不仅同这个目标紧密关联,而且将影响到基于树库的自动词性标注和句法分析系统的性能及其后续应用的结果。
简介:文章认为“动宾+宾语”的语体功能一方面是由“动宾结构”在词和语两重特征的作用下无法实现其具体时空性造成的,双音节短语、离合词、双音节动词句法特征与此不同,语体功能有所差异;另一方面是“动宾结构”的核心移位降低了原来状语表处所、时间等将事件具体化的功能,进一步增强了泛时空性造成的,代体结构尽管也发生了核心移位,但其中的动词具有较强的具体时空性,故具有口语性。