少納言、青空 WING、活辞典和编舟记

传统辞书(包括已经电子化了的)中的单词用例都是孤零零的句子。当你想在更大范围的现场观察这个词的使用时,会发现:没有语境。又比如你用日语写东西,想查下别人对某种搭配的使用。传统辞书以收词为主,即便收录搭配,限于篇幅也是挂一漏万,经常帮不上忙。一个很自然的想法是:用搜索引擎。然而,搜索引擎给出的结果往往良莠不齐且过于庞杂。更具可靠性和相关性的方法是:检索日语语料库。

日语语料库检索系统中较为常用的有「少納言」。它基于日本国立国语研究所(简称“国语研”)制作的“现代书面日语均衡语料库”。“均衡”讲的是它的收录面:涵盖书籍、报刊、博客、教科书、国会议事录等门类,时间跨度自 1971 年至 2008 年,总篇幅 1.43 亿词。作为「言の葉」计划的一部分,国语研还在构建一个“超大规模语料库”,篇幅预计为上述“均衡语料库”的 100 倍。除提供语境外,语料库还可以被用来辨析近义词。日本筑波大学开发的语料库检索工具 NLT 提供「2 語比較」功能,能从语料库中抽取 2 个词各自(相对)专属的搭配。

上述查询工具都基于网页,频繁使用时往往为网络延迟所累。这时你可以考虑——「青空 WING」。顾名思义,「青空 WING」是「青空文庫」与「EBWING」的结合。前者是日本最大的在线公有领域书库,后者是日语辞书在移动互联网时代之前最为常用的电子格式。

「青空 WING」的使用与普通「EBWING」辞书并无二致,但其内容却是「青空文庫」全文。这意味着你可以在本地随时对「青空文庫」收录的近 800 位作家的 12000 多部作品进行全文检索。「EBWING」系列词典软件( EBWin,EBMac,EBPocket )的开发者近来为软件增加了制作全文检索索引的功能,使得原本需要至少耗费数秒乃至十多秒的全文检索得以瞬间完成!

不过,上面讲到的「少納言」和「青空 WING」有一个通病:未对语料进行分词处理。这使得你搜「ひと」,会把「ひとつ」、「ひとまず」之类也给搜出来。「少納言」的加强版「中納言」当无此问题,但其使用需专门申请。「青空 WING」的制作者另外提供的「作家別用例辞典」由于经自动分词程序 Mecab 预处理过,也在很大程度上规避了此问题。

今年 7 月 18 日,「青空 WING」的制作者发布了基于「青空 WING」的“青空文库用例卡片制作工具”。想来,这将大大方便电影《编舟记》所描写的,编撰辞书时的用例收集工作。与自动分词工具一样,语料库检索工具对语言学习者而言,也还远谈不上好用。但愿这只是一个开头。