Tag: Chinese
-
简繁字库
偶然发现,思源字体的繁体字库文件,无法显示一些简体字。而思源的简体文件,似乎可以显示全部的繁体字?于是把常用的字体文件拆开,看看分别都能涵盖多少简繁汉字。 直接说结论: 首先,在最常用的几个字体中, 两两之间的差别,只是少许生僻字、异体字、以及历史遗留的制作中文编码时的重复或疏忽。具体差别的内容,放在文末了。所以,这里主要对比「思源简体」和「思源繁体」,就可以了。 在思源字体 CJK 的说明文件里,写出了不同国家字体文件的字符数量,和需要支持的标准。可以看到,简中字体文件打包的字符,比繁中多了一万多个(这里的 Glyphs 不仅是中文,也包括西文、特殊符号、甚至一些 emoji)。 简中字体需要支持的标准,主要是 繁体字体需要支持的标准,主要包括 从台湾的官网上,可以下载到目前最新的 CNS11643 – Unicode 之间的对应情况;大陆这边没有找到类似的官网资料,搜到的几个 GB18030 – Unicode 编码表,都是 PDF 格式(掀桌……)。但可以在 python 里把字符 encode,得到相应的编码,也可以变相确认,某个字符是否在某个编码里。 实测结果,所有的 13053 个繁体 big5 汉字,也就是台湾最初规定的,最常用的繁体字,都包含在大陆的 GB18030 编码,也包含在思源简体的字体文件里。包含在思源繁体,而不在思源简体中的汉字,只有 1711 个(详见文末,——如果你觉得其中哪个字不够生僻,那么通常是历史遗留下来的编码重复、或者异体字。譬如,现在 Unicode 里,至少有 10 个各种形态的「龟」字了。 相对的,包含在思源简体,而不在思源繁体中的汉字,有 11856 个之多。这其中,包括了非常多的常用简体字。以大陆最常用的 6763 个汉字(也就是 1980 年大陆发布的 GB2132 汉字编码集)为例。在这些汉字当中: 具体字符清单见文末。可以看到,思源繁体字库中,不能显示的常用简体字,接近 30%,尤其是部首本身就有简繁体之分的,如:讠纟艹饣钅车马鱼鸟页……使用了这些简体字部首的字,有很大概率,在繁体字库里无法显示。 当然,这样的差异,不一定代表着台湾那边的汉字编码工作不力、或者对简体字的傲慢。无论是 GB18030 还是 CNS11643,都早已有了更新更全面的版本,在 CNS11643…
-
嘎代嘎代,一个民间版本的《心经》
在香港某个村口,看到墙上刻的《心经》,突然发现,最后那段咒,并不是常见的「揭谛揭谛」,而是另一段文字: 故说般若波罗蜜多咒 即说咒曰达雅他 嗡 嘎代 嘎代 巴热嘎代 巴热桑嘎代 保地索哈 流传最广的《心经》中文版,肯定是大唐玄奘的译本: 故说般若波罗蜜多咒 即说咒曰揭谛 揭谛 波罗揭谛 波罗僧揭谛 菩提萨婆诃 历代又有十几个版本,鸠摩罗什、法月、法成、日本大藏经的重译版、清代藏文重译、以及近代敦煌遗书的梵本音译……印象中都不是村口刻的这个文本。而且村口石刻前面的部分,完全就是玄奘版一字不差。所以……我最初还以为,是广东话发音的心经咒,然而并不是这样。 Google 搜出来的结果,大多提到了「多识仁波切」,也就是村口落款的「多识」。我不能 100% 确定,但大概他就是村口新版本的始作俑者了。这个人大概现在还活着。 多识仁波切(1936 – ),本名多识 · 洛桑图丹琼排,安多华锐藏区天堂寺第六世转世活佛,西北民族大学藏语言文化学院教授,博士生导师,系享受国务院特殊津贴专家。兼任西藏大学客座教授等多种社会职务。代表作《爱心中爆发的智慧》…… 村口的这个版本,明显是从藏文版音译过来的,——看那个「嗡」字就知道了。藏文版《心经》和梵文版的发音很接近,但经常加入「ཨོཾ」表示咒语的起始。 ཤེས་རབ་ཀྱི་ཕ་རོལ་ཏུ་ཕྱིན་པའི་སྔགས་སྨྲས་པ།ཏདྱཐཱ། ཨོཾ། ག་ཏེ་ག་ཏེ་པཱ་ར་ག་ཏེ་པཱ་ར་སཾ་ག་ཏེ་བོ་སྡི་སྭཱ་ཧཱ། 但这个版本的最大问题是:「达雅他」在藏文里的意思,本来就对应着中文版的「即说咒曰」。所以这个版本里「即说咒曰 达雅他 嗡 嘎代……」,是把「即说咒曰」重复了两遍(摇头~ 嗯,就到这里。我不是佛学圈的人,不清楚这个版本的来龙去脉、以及多识仁波切有怎样的影响。只是我看到村口石刻后莫名其妙,也不能 google 出明确的答案。以防别人看到这个东西,也是一头雾水,所以在这里说明一下。谁有更详细的信息,欢迎留言补充。
-
像 xx 语言一样难懂
英语里有个俚语:it’s Greek to me. 意思是说这个东西太难懂了,「难的就像希腊语一样」。 那么,在其它的语言里,描述一个东西很难懂的时候,是说「像什么语一样」呢?什么语言,对它们来说,复杂到了会用在日常比喻的程度呢? Wiki 上有个 Greek to me 页面,列出了很多语言里,如何形容一个东西难懂。 经常被用来比喻「很难懂」的语言:西班牙语、希腊语、希伯来语、日语、土耳其语、中文。 然后…… 西班牙语:像 希腊语 / 中文 一样 希腊语:像 中文 一样 希伯来语、日语:像 中文 一样 土耳其语 → 法语 → 俄语 → 中文 最后,作为链条最末端的中文:难的就像天书(or 鬼画符)一样…… 我试着把这个鄙视链,画出来了:(中、英) 这样画出来,确实有点关于中文的优越感。但其实也有一些语言,并不在这个网络里,譬如越南语认为高棉语难懂;也有的并不用其它语言来形容难懂,譬如韩语。它们会说: 像 鸡爪 / 猫爪印 / 狗爪印 像 鸟叫 / 狗叫 像 异形 / 外星球 的语言 德语里有个短语:我只懂火车站。——其它的,譬如面前这个,完全不懂? 加泰罗尼亚:好像你在说露西亚(Llúcia)。——女人才难懂呢。 关于这背后的原因。可能也未必是因为,那些语言就真的更难懂。有时只是因为某个语言传播的比较广,如西班牙语(但葡萄牙语完全没人提,真的很意外)。有的可能更偏向于「远方」的概念,譬如希腊的意义,可能更多是位于欧洲另一端的小岛(当然希腊语本身确实也超麻烦)。中文应该也有这方面的意象。而保加利亚人会说,「像巴塔哥尼亚语一样难」,明显是在指,地球的另一个角落。 想起这个语言链,是因为今天的另一个话题:英语里的「火鸡…