汉语字频或西文词频统计的一种新方法*


在计算机发明前,语言学家统计字或词的使用频率采用的方法只能是人工对字或词计数,这是一件很繁重的工作。计算机无疑给语言学统计带来了一场革命,把语言学家从低效的工作中解放出来,让他们有更多的时间从事更有意义的研究。而英特网给这项工作带来了另一个质的飞跃:语料库(corpus)不再限于出版的书、报刊、杂志,而是整个全球网络。据我所知,在我2005年的工作之前,将英特网用作语料库做词频统计的学者采用的是主动到网上获取语料,然后在本地进行统计。我这里介绍2005至2009年间我对汉语字、西班牙语和法语词做的频率统计,其方法新颖独特而简单易行。

方法和结果

这个方法的本质是使用现成的搜索引擎,本地机器只是一台简单的电脑,将一个字或词提交到搜索引擎如Google进行搜索,记录下结果页面出现的搜到文章的大约计数,然后对下一个字或词进行搜索,两千字或词用我的程序如此搜索、计数,在低网速、近10年前的普通配置家用电脑上运行,大约只需两小时,然后对文章计数排序,最后结果就是字频或词频统计。

我在2005年将中国教育部《关于发布〈现代汉语常用字表〉的联合通知》中的2000常用汉字提交到Google进行搜索,结果是

常用汉字使用频率表 (Google)

2009年用Yahoo和百度对同样这批2000字搜索,结果分别是

常用汉字使用频率表 (Yahoo)
常用汉字使用频率表 (Baidu)

2009年将Quizlet的1000常用西班牙语词提交Yahoo和Google搜索,结果是

西班牙语 (Yahoo)
西班牙语 (Google)

Wiktionary:French frequency lists的常用法语词提交Yahoo搜索,结果是

法语 (Yahoo)

评价

这个方法的优点是简单、高效,并能很快反映当前网络用词的频度。但缺点也不可忽视。首先是所使用的搜索网站的限制,例如百度将频率非常高的关键字(词)的搜索结果计数限制在1亿,遭此限制的常用汉字为108个,即这108个字之间的频率排序不可靠,例如“县”字在我的百度字频中排25位,但按常理恐怕进入前100的可能性都不大。第二,虽然我们不要求字或词的计数精确(也不可能精确),但各个搜索引擎给出的关键字计数可能过分不精确,唯一的修正方法是综合多个搜索引擎的结果,将它们平均,再用平均结果重新排序(这个工作我没有做)。第三,我进行西班牙语、法语词频统计时,故意忽略了词根变化,屈折语词即便在词典里也不因后缀变化增加一个词条,这个忽略是可接受的,但在做搜索时,如对absoluto和absoluta、acción和acciones,只取前者,这虽然是词典的做法,但在搜索上无疑降低了它们的计数,从另一个角度看,它无形中相当于提高了不作屈折变化的词的计数。最后,网络文章有重复现象,这在中国大陆的汉语网站上尤其明显:同一篇文章被转贴,而在其他地区或其他语言的网站上,一般只给出指向原文的一个链接。重复的文章人为提高了这篇文章中的字(词)的计数,不过,这个提高也可部分作为该语言对这些字词使用频度真正提高的一个表现。

搜索网站对程序自动访问提取数据比较敏感,在程序运行一段时间后,可能遭遇不能再搜索,手工操作会发现,网站察觉有程序自动访问,可能屏蔽一段时间,或加入验证码。这个工作本身不是非道德行为,与黑客的工作完全不同。但网站出于自我保护,禁止自动搜索也可以理解。要解决这个问题,需要与网站沟通,如我向Yahoo反映了这一情况,他们的技术支持部门建议使用他们对外提供的API服务(这个工作我没有做)。

结论

字频或词频统计不是纯粹学术的工作,例如,它在语言教学中具有重大意义,教科书编写者可参考字频统计,使学生从易到难学习生字。语言、社会或历史研究者可对字频作定期统计,考察某些字沿时间的变化,因此对社会风俗、文化的研究提供数据。这里介绍的一种新的统计方法,将使这种从前耗时的工作变得非常简单有效,研究者便能更容易获得大量接近实时的数据,有助于研究。


2014年1月


___________________________
* 本文是对我2005至2009年所写《Chinese Character Usage Frequency》(汉字字频)和《Word Usage Frequency》(词频)两篇文章的汉语介绍。一些细节在此忽略,例如所使用的源程序等,该程序的使用完全不考虑现成的中文处理软件提供的便利,因此看起来很复杂,实际可以简化。


To my Miscellaneous Page