华佗百科:关于改革字体、地区词转换功能的调查

华佗百科,全民书写的医学百科全书!
跳转至: 导航搜索

最新更改

  • 共识的第一条按照意见修改了一下
  • 共识的第二条按照意见修改了一下
  • 比较详细的技术策略出炉了

动态监视

Huatuo:繁简处理
最后版本 Srr第一步:改写Huatuo:繁简处理修改
Huatuo:繁简体转换请求
最后版本 Srr第一步:改写Huatuo:繁简处理修改

背景

中文华佗的Huatuo:繁简处理问题是历史问题,出自繁简两个版本的合并过程。在这个过程中,制定了繁简转换表使得繁简字体转换实现了相当的自动化,深受欢迎。然而,一些地区词造成的同义词分歧(打印机、印表機)仍然没有得到解决,因此中文华佗采用了一个值得质疑的策略,就是用繁简转换器的词替换功能来同时实现繁、简体版之间的同义词替换。不料,繁体的常规使用者还至少分港台用户两种,内部依然存在同义词分歧,于是使用繁简体转换器的超载词替换功能,发展出除简体(zh-cn,其实是中国大陆简体)及繁体(zh-hant)外的三个字词转换表:台湾正体(zh-tw)、香港繁体(zh-hk)、新加坡简体(zh-sg)。

2006年11月左右,港澳繁体(zh-hk)标签在依投票结果新增在页顶,而台湾正体(zh-tw)标签则代替了原来的繁体(zh-tw)标签,但这繁体版事实上在未登入下被预设为使用zh-tw,因此只是名字上的变更。故此,实际上对于繁体版的注册用户港澳繁体版和台湾正体早已在参数设置中设有。不久,马新简体也被提出要求显示在页顶标签中,自此在页顶多了大陆简体以外的简体选择。目前,中文华佗百科一共有六种版本,除上述五种版本,还有源文件作为不转换(zh)的第六种版本,而繁体(zh-hant)一直还在页顶标签中隐藏着。

问题

虽然港澳繁体版建立之前有过一次投票,那次投票的局限性和操作方式意味着许多制造出来的问题没有讨论也没有解决。争论得最激烈的问题不外乎于中文华佗是否应该有多种版本。虽然Huatuo:繁简处理里承认

共识:我们的最终目标是:取消过去的繁简分立体系,每个条目只保留一个版本,并通过电脑程序自动转换繁简体。

但随着用户要求替换的词和词组越来越多、地域针对性越来越强,合并的进程已不存在,“一个版本”的概念也已经模糊,目前只能说每个条目有一个“不转换”的源文件。另一方面,不同的地区确实有一些特殊的习惯用词或官方译词,在华佗百科上同时出现时容易产生有关权威问题的政治纠纷。除此之外还有更微妙的众多问题,详见:123

分析

简体和繁体的转换是纯字体转换,仅仅涉及技术问题。区域词替换则是内容创造和修改的问题。两者的混淆使上述问题复杂化,不透明化,讨论摸不到核心,后果是初衷和结局牛头不对马嘴。字体转换和区域词替换显然是垂直的,因此即使只为了方便管理也有必要在概念上、技术上、届面上把两者区分开来。详见这里

进一步分析

繁简体转换问题切割开以后,剩下来的区域词分歧可以总结出以下几种类型,大多和外来语有关,但不全是:

  • 非专有名词
    • 偏好分歧
指几种词各区域通用也比较一目了然,仅在使用频率上有别
例:公共汽车词组激光
    • 词义分歧
指字面意思不同或有混淆可能的词语,经常是术语和意译的外语词
例:散列表交流道
  • 专有名词
    • 音译分歧
指音值相似、只是音译规则不同造成了用字分歧
例:马力欧伯克利迈克尔·乔丹
    • 权威分歧
指当事人或组织在各地区使用的正式命名不同(名称、商标),或各地区政府的官方命名不同(地名、人名)。
例:通用电气公司老挝布什

上述分类有少量重叠。

共识

经过数次讨论,得出以下的观点,希望能成为阶段性的共识:

  • 设立繁简体“公版”,也就是恢复没有地区词替换的源文件繁简体版。

理由:源文件作为中文华佗的标准版,需要有方式呈现出无显著地区特征的繁简字体资料。

  • 审查全版本替换表的内容,逐渐脱离对该表的依赖。

理由:全版本替换的技术不成熟,漏洞百出,影响面广,各种改动牵涉太多,所以无法有效维护。同时,由于编辑规则不同于文章(管理员必须介入),常规的“华佗过程”失效。是否要保留一小部分的全版本替换词应该商讨一下,但这个表应该慎用,里面的每个词都应该商讨有没有必要全版本转换(即为什么不能用标签达到同样的效果)。

  • 规范内文地区词替换标签的使用原则。

理由:内文替换标签(noteA等)是文章内容的一部分,所以必须接受“华佗过程”,包括出现争议时通过讨论来解决(这里的争议包括某篇文章是否用替换标签,在哪里用,用什么词,等等)。制定一些原则可以使这个过程更客观、透明。

阅览Huatuo:繁简分歧词表是讨论这些问题的良好起点。

  • 制定地区名存亡的标准。

理由:与其给每一个要求的地区一块新版面,或禁止添加新版面,不如用客观标准来决定增加或撤销一个地区名。

实践

以下是一个界面的建议。简/繁是两个连接,类似以前的简/繁转换连接,通过纯字体转换表把当前显示的页面用全简体或全繁体呈现。工具栏里可以选择地区词的替换。

File:Interface suggestion.png

“技术上的问题没想像得那么难,都可以用现有的技术和表完成(某些表需要整理);只要谁授我权,我绝对乐意去实现。举个例子,依照上图,如果用户选择简体,但用台湾区域词替换,自动转变的步骤应该如下:(1)把源文件(也就是“不转换”版的内文)用简转繁纯字体转换转成全繁体(包括内文的所有标签,都一并转换),被特殊escape的段落不转换;(2)从源文里抽取(zh;zh-cn;zh-tw;...)标签,把zh的词选替换成zh-tw的词选,被特殊escape的段落不替换;(3)把第2步的结果用繁转简纯字体转换成全简体。 ”

“目前的转换我问过mountain,有实现繁简与地区分开的基础,但这类改动要小心从事。—自由主义者 ? ”

意见

疑问

其实简繁问题早就造成我的问题了,之前编写数码宝贝就搞了半天,在台铁车站列表就直接取消简繁转换,不知道有没有标签可以只取消动态转换但仍保留静态转换... 有时候还会需要临时取消手动转换,而各种转换的取消常要长达一个表格... 有没有办法指定一个词是某种语系,其他的让系统自动翻译,不然有时会出现混乱,有的词在不转换/简体/繁体会不一样...

关于手动/自动转换功能的共识

总体发展方向已经定下,接着是规范地区词转换功能。但我认有数点先要得到共识,之后再订下使用细则:

—、新系统是否保留全局自动转换?下方的技术讨论可供参考。 二、内文手动转换标签有三种(全页的{A|...}, 标题的{T|...}, 和单独转的{...}),不过noteA、noteT会改变的条目命名,这是否属于“命名常规”的管理范围?应如何处理?

我认为还是要保留全局自动转换,但可以逐步改为单篇文章转换,亦即慢慢改为“有这个功能而不使用”。noteA不会改变条目命名,只有noteT会。目前的命名常规规定先到先得,其他重定向,或许可以加入“最通用命名”方针,但要注意“如何评估最通用”,不能以“人口多”之类的方针。
赞同不是人口多的方针,而是以歧义少的方针。
地区词的转换部分,建议完全取消,这样才能避免条目说明中的引文、文献中的地区词连带被转换的现象。至于较难理解的地区词,如两岸医学用语等,则依Huatuo:避免地域中心原则,于首次出现加上其他地方之等义用语。(条目名称可进一步讨论)译名则效法英文版Huatuo,于初次出现时加上原文名称,以便于资料查找及他地人理解。

标签名称参考

  • 转换标签名称:
MediaWiki:Variantname-zh-cn
大陆简体 最后编辑:Fdcn,摘要未说明任何原因
MediaWiki:Variantname-zh-tw
台灣正體 Kevinhksouth据台湾华佗人意见所选,香港投票原无此项
台灣正體 最后编辑:Ran,恢复了Shizhao去除的台湾字样
MediaWiki:Variantname-zh-hk
港澳繁體 最后编辑:Kevinhksouth,香港标签投票主持人
MediaWiki:Variantname-zh-sg
马新简体 最后编辑:Sl,据马新标签论争投票
懂中文字的话,应该明白“未有定案”是什么意思吧?
上面并未指明定案,只是随时监督条目操作,与有无定案无关。
是因为“已确定”那个词吗?已删除。

为了如此简单的问题竟然作了这么复杂持久的讨论,简直是不可思议。 以下就是解决方案:

  1. 完全关闭词汇转换功能。
  2. 任何情况下,一个字如果对应多个相对体字,这个字不转换。
  3. 外文专有名词直接写作外文或英文,或在译名后写出外文或英文。
  4. 在有分歧的名称后面说明别名,或采用更易于理解的名称。
  5. 改进转换功能,使能够对繁简体字混合的文章进行统一转换。

技术讨论

参考资料

TTTT 09:15 2007年2月8日 (UTC)

在Subversion上的

请提议者先看看在Subversion上的源码,有关的转换方式是在MediaWiki软件里本身做的,对标签的修改可以找管理员协助;但对转换方式,则须由用户修改源码,再由‘递交者’(Committer)应用已经修改好的源码,放上Subversion中,才能应用变更。在CVS时代中,懂汉语的‘递交者’只有User:Zhengzhu一人。而到了Subversion时代,并没有任何一位懂汉语的‘递交者’,包括Zhengzhu,这需要将请求放上Bugzilla中,在Bugzilla中的其它开发人员或‘递交者’亦未能熟悉汉语,可能会迟迟未能套用修改。

    • 我不太懂编程语言,但我想问:程序上,“马星/大陆”、“港澳/台湾”是否归为繁简两类?再要仔细转换就要依靠“内文替换标签”?如果是的话,好像不一定要涉及MediaWiki软件源码修改,最起码Zhconversion.php不用改。
依我的看法中,现时的Zhconversion.php档案里,zh-cn的转换文字包括了【简化字】以及【中国大陆字词】的转换;zh-tw的转换文字包括了【传统字】以及【台湾字词】的转换;zh-hk的转换文字包括了【香港字词】的转换;zh-sg的转换文字包括了【新加坡字词】的转换。另外在LanguageZh.php的内容中,zh-hk是直接继承了zh-tw转换表再上zh-hk转换表的内容;而zh-sg是直接继承了zh-cn转换表再上zh-sg转换表的内容。因为zh-cn以及zh-tw的部分包括了传统字与简化字的转换,故此要解决这个问题,则需要修改zhtable生成出来的Zhconversion.php以及在LanguageZh.php中的转换从属关系。
请大家在讨论对繁简转换作进一步的技术改进的时候,请不要只顾及Huatuo社群,也要同时照顾到其他的wikimedia姊妹计划。例如wikisource因为是原始文献的收集,所以根本不需要地区用词的转换功能,而只要求用字的转换,这样才能保证文献的原貌。另外,wiktionary和wikiquote可能也存在类似的情况。

详细阐述目前的转换技术

我看了一下mediawiki的源码。user:shizhao说的这点我昨天也意识到了,确实mediawiki里放替词表不合适,特别是经常需要更改的数据本就不该放在源码里!具体说一下,

  • includes/zhtable/* 里没什么数据,(源码里的转换大多靠引进Unihan等公共数据库,所以基本上是静态的)。
  • includes/zhtable/MAKEFILE 生成includes/ZhConversion.php,里面就定义四个转换表变量,其中$zh2CN列前半是繁转简字词,后半是台湾(繁)=>大陆(简)翻译词,$zh2TW列前半是简转繁字词,后半是大陆(简)=>台湾(繁)翻译词。$zh2SG则是大陆、台湾、香港=>新加坡译词的合并,$zh2HK是大陆、台湾、新加坡=>香港译词的合并。
  • languages/LanguageConverter.php 定义转换基类。
  • languages/classes/LanguageZh.php 延伸转换LanguageConverter类,其中引进 includes/ZhConversion.php的四个转换表变量,zh_cn版、zh_tw版分别用$zh2CN和$zh2TW转换,zh_sg版用$zh2CN和$zh2SG的合并,zh_hk版用$zh2TW和$zh2HK的合并。

由此可见,这里面混乱得不得了,特别是zh_sg和zh_hk的做法过于劣等(比如已经陆译台了为什么还有陆译新的替换对等等),怪不得之前两种variant招牌挂着却不投入使用。

  • 全站转换的数据来自上述源文件里的静态表和 MediaWiki:Conversiontable/* 里的动态表的结合。这是所谓的“自动转换”。
  • 除此,还有搜索、标题连接、外语连接、版块等等的转换都用了这个表。
  • 源文件里也有标签转换的迹象。支持三种标签(全页的{A|...}, 标题的{T|...}, 和单独转的{...})。这是所谓的“手动转换”。

我看这些重叠表的使用都可以废除了。下面写一点并非完全成熟的技术策略

  • 仍须保留地区用词整体转换表;若未完善则须试完善之:共识中有:应建地区用词进退机制。

-{我认为zh-hk不应直接继承zh-tw转换表,而应独自建立新表,原因是香港跟台湾的用字很多都不相同。

  • 例:香港用“卫”、“里”、“卧”、“兑”、“昷”、“着/著”分开使用,台湾则用“卫”“里”“卧”、“兑”、“囚+皿”、“著”代替“着”。

技术策略

  • 编制全新的简转繁和繁转简转换表(静态的两个表,动态的两个表)。
    • 制表的最高指导方针是:“服务现代汉语”和“转字不译词”,因此,
    • 一对一的字无疑义,直接置入静态表。
      • 各地区为同一概念造的不同的新字如果表音相同可以视作异体。
    • 一简对多繁的字多为假借字。汉语假借仅两种可能:
      • 借形,比如假借古罕用字(形)的“宁”、“广”,则现代汉语里实属一对一,直接置入静态表。
      • 借音,比如“斗”、“谷”、“干”、“表”、“面”,都一律放在动态表里。
    • 一简对多繁也可能是异体字
      • 把只有一种正规体的异体字作为一对一放入简转繁静态表里;凡是繁转简一对一的纯异体,则放入繁转简的静态表里,其他的放在动态表里。
    • 一繁对多简的字(比如“干”,“堃”)同理留给动态表。
      • 这里面包括允许用于人名的异体字。
    • 简繁和繁简两张动态表里置放所有的一对多转换,可以采取一定的自动化手段协助完成制表,如下:
      • (注:以下所指的“左边”和“右边”指表的“两边”,即“左边”的字串转换成“右边”的字串。)
      • 列出所有的一对多的字对,以最常用单字顺序排列:如:“斗=>斗,斗”,“干=>干,干”,“堃=>堃,坤”。箭头右面可以用array,如果技术上不能实现则最终只保留第一个转换字。
        • “最常用”并不等同于不转换的字,比如“斗=>斗”,“干=>干”是最常用。但“堃=>堃”最常用因为“堃”作为人名远比作为“坤”的异体常见,大多可以用作人名的繁转简异体字都如此。
      • 为了区分义,表里左边的每个字都列出包含该字的最短包含词,并列出转换
        • 如果词和对应词都一头或两头裁字(最短裁到两个字),结果仍是汉语词并已经在表里存在一对一对应,则该词不是“最短包含词”。
        • 如果一词对多词,以最常用顺序排列。如果技术上只能取一个,则最终只保留右边的第一个词。
        • 注意不译原则,即使一个词在某地区有另一种意思或从来不用,也不译。
      • 校对1:列出表里所有出现非吞没式重叠的左边词对(简转繁的话则如:“头发”、“发表”、“表面”、“面条”),并拼凑。
        • 如果拼凑出来的也是词并且会形成表里未出现过的最短词对,就必然是漏掉的词对,也加入转换词对。重复至没有新词加入。
      • 校对2: 列出右边非第一项的字串中仅在该对里出现的字串。这些是仍存在歧义的字词对
        • 检查是否漏掉了可以消除歧义的更长词对。如有,加入,重复。
      • 到了这步,仍存歧义的字词对都是难以自动转换的,没人工智能不可能分辨。
        • 比如异体单字(如人名里的异体)和语法差别词(一些繁体里动词/名词写法有别的词)
  • 以上是理想的制表方式。但为了方便,应该先利用现成的表数据作为起点,这并不是很难,手动都可以完成,但输出的表可能有重叠或其他问题,可以慢慢清理。
  • 有了这些表,简繁转换就可以以最长吻合字串的做法来完成。步骤如下:先在文本里搜索转换表右边的词,所有搜索到的词都已经是目标字体的了;继续在文本里搜索转换表左边的词,有吻合就转换成右边的词。如果右边有多项字串,则取第一项字串(就是最常用的字串)。
  • 碰到转换不好的文章,首先动用不显示的分隔字串(目前有{})做词分隔,而不是把周围的几个字一起加到动态转换表里去(除非形成的确实是表里漏掉的,而不是一个特殊的片断)。
  • 至于地区词的互译,建议用标签实现。如果必要整站转换(看不出这个必要,但如果一个标签出现很多或为了连接和搜索等),则应另设表(而且索性来个全对应表,而不是四个地区排列组合出6个对应),然后先上替换表,再上繁简转换表。现阶段可以沿用抽掉繁简转换部分的替换表,但应该审视并逐渐剔除不符合原则的替换(原则待讨论,见“共识”段落)。
  • 增设zh-hans和zh-hant两种variant,分别为标准版简体和标准版繁体。保留zh。
  • 其余variant的处理方式也根据需要修改源码。

同时请参考中文华佗最初建立繁简体兼容体系时的Huatuo:繁简处理/技术方案

最后随便说一句长远一点的话,其实啊,如果中文华佗字典做得好,就是最好的转换表源了。

静态表做繁->简汉字的一对一无歧义转换,动态表做一简->多繁的汉字转换,需要日常维护。词语的转换最好在各个条目用noteA标签解决,不要设全局转换表。
非常恰当的总结。

下一步

完成以上的计划需要修改源码,比较麻烦。但是大部分仍然可以不修改源码完成,性能会差一点,作为尝试则不成问题。因此:我准备先兴建两个动态转换表,分别为zh-s和zh-t服务。其中一部分将来可以移至静态表。最终这两个名字按照国际标准应该叫作zh-hans和zh-hant,zh-tw应该改为zh-hant-tw,以此类推。zh-hant转换的动态表页面似乎已经存在,不知道是什么缘故。 我已经向管理员申请了,请给予支持。

我觉得阁下应该是要下载一套MediaWiki软件,再进行修改;修改后将它放给开发员处理。只是在华佗百科中授权,亦不会对MW软件的修改有任何的帮助。
确实应该先架站试验一下,等社区达成共识,充分测试之后再上线修改。
我申请的两个页面是为了让所有人都过目一下上面所谓的繁简转换包括哪些词、不包括哪些词,毕竟有一些边缘案例,也可以借华佗用户的力量完善一下这些一旦改系统就要用的表。我自己建个站根本不解决这些问题。我不认为这有什么不恰当,或与另架测试站有什么关联,两者大可以并行进展。我要求的页面根本不被使用,既不影响目前华佗百科的运作,又可以为下一步的修改做准备。请各位管理员重新考虑我的提议。
个人不建议在中文华佗百科上做技术尝试,毕竟这样风险太大(一方面网站浏览量很大,一方面数据库也很庞大)。如果您需要中文华佗百科上的条目在自己架设的网站做验证,可以,这里提供中文华佗百科的XML资料表(虽然非常大,上GB,别被压缩过的大小骗了),可以架设在测试网站上做验证。
至于书写转换表的部分,您大可以在您的User页面下做个子页面,然后在这个页面告诉大家有这个东西。因为在MediaWiki名字空间上的项目可以影响系统界面,比较容易发生冲突的问题,因此不建议在MediaWiki名字空间书写。
同意以上诸位的说法。另外,全局转换表不宜一下子全部拿掉,必须慢慢来。
我不是很支持zh-tw改成zh-hant-tw,因为zh-(tw, cn, hk, sg)是RFC 1766规定的标准,参见W3C HTML 4.01规格书。另外找到了一个可供参考的连结,Huatuo talk:繁简处理/档案6
其RFC 1766以及它的后继者RFC 3066已经不再使用了。现在有关的RFC正式标准应为RFC 4646。talk:Shinjiman|♨]] 03:21 2007年2月11日 (UTC)
看了RFC 4646,zh-(TW, CN, HK, SG)还是标准用法,字体tag是optional。字体tag的好处应该是容许zh-HANS-TW, zh-HANT-CN这类用法。其实也和之前讨论的方向很像,也就是字体(书写系统)与地区分开处理。或许汉语拼音也可以归类于zh-LATN呢(汉语,使用拉丁字母)。
(与主题讨论无关)若用那种标示,汉语拼音应为zh-LATN-CN,另有zh-LATN-TW通用拼音(虽然台北市是用汉语...)

好像有一段时间没讨论了?!

请问上述的讨论是否已有定案?是否有结论?

不是大家都在忙,就是像我一样没话可插...恶龙来插个话,我给你一条大鱼XD
我看了一下发现应该是取得共识了,但是似乎对于具体该怎么着手去做似乎还没有人去做,我们是不是要成立一个简繁地区改革小组,并有华佗社区授权他去处理这个事情呢?要不然由于设计的人和事务太多,可能实行起来有很大阻力.
赞成你的意见,华佗人是自愿的,这样繁复的工作要一二个人去完成不合情理,而且在改革的过程中可能有新的想法或问题产生,有讨论的必要,确实需要成立小组。由于我现实工作繁忙,加上对这些技术不太了解,不会参加这小组。
对于这种的改动是要修改MediaWiki软件本身的,此外,要作修改前,必须先要收集好要作转换的词汇。然后才能执行。基于这种的修改是与管理员权限是无关的,故此有管理员权限的用户亦都无能为力。这需要一些懂修改php的人士帮忙,以解决这种的问题。这问题不只是华佗百科本身的问题,是所有使用MediaWiki软件的网站都有这个问题,所以这次的修改亦需要小心地去进行。
不知道有没有行政员带头,不然是没人能动程序的...另外我的两个问题有没有解...
由懂得处理这些事,以及有兴趣的华佗人推动此事,不一定非行政员不可,不要忘记主导华佗是大家的共识,行政员管理员只是义工而已。我提议由Ksyrie和Shinjiman推动成立小组吧,Shinjiman研究这事很久了。
不过,要有行政员才能完成修改吧...
不是要行政员呀,真正需要的是懂php的人士,以及能够在MediaWiki SVN有写入权限的‘递交者’。
整理我的问题:1是能否取消语词转换,但保留单字转换;2是能否将一个词语指定语系,让系统不会乱翻-

刚才发现一个问题,在广东话里“架次”可以作车辆的量词,但在台湾只用于航空器...

已经有粤语华佗,广东话的用词不适合在这里用。
启德隧道有看到此一用法
对于这种的做法,应该无需要在预设转换表中转换。

其实大家已经取得共识,问题在技术方面而已,似乎TTTT在研究中,请问进展如何?

我只会写basic程式,不会写php,不过可能可以提供一点小意见

嗯,最大的困难我想一定是技术方面。我对MediaWiki这么大型的程式,可能需要几个月的时间全职研究才能搞懂,而很不好意思的是,我没有那么多空闲时间。所以希望有志愿者能帮忙研究修改程式

忽然发现,在各个section的标题作词语转换时,自动产生的目录却不会跟着改变,这点也可能需要修正。

问题多,技术复杂,一、两个人弄不来,Ksyrie成立小组的提议非常适宜。由部分人开始推动吧,我提议先设小组专门页面,任何人有兴趣都可以加入小组,提供意见或分担大家的工作,更重要的是必须有懂行的人来“领导”大家,否则还要花时间去学习熟悉各方方面面,也会走很多冤枉路,Shinjiman研究简繁的事情很久了,是很好的人选,不知有兴趣否?

Names.php更新

现在显示语言标签的名称已经更新了(rev:21200, rev:21201),zh-cn会将会由【中文(简体)】改成【中文(中国)】,现时显示成〖中文(中国大陆)‎〗;zh-hk会将会由【中文(繁体)】改成【中文(香港)】,现时显示成〖中文(香港)‎〗;zh-sg会将会由【中文(简体)】改成【中文(新加坡)】,现时显示成〖中文(新加坡)‎〗;zh-tw会将会由【中文(繁体)】改成【中文(台湾)】,现时显示成〖中文(台湾)‎〗。此外,zh-hans以及zh-hant亦将会增加,zh-hans会显示成〖中文(简体)‎〗,zh-hant会显示成〖中文(繁体)‎〗;这对将会做的中文用字转换系统的重组有所帮助。

为什么“【中文(简体)】改成【中文(中国)】”?这和目前的“大陆,香港,台湾。。。”矛盾。
zh-cn ← Chinese (China)、zh-Hans ← Chinese (Simplified),将两者区分出来,避免混淆;而这里的改动并不是更改页顶的标签,而是更改在跨语言连结、以及在参数设置中的显示名称。
  • 为避免分歧,需要“页顶的标签”,“跨语言连结”、“参数设置中的显示名称”都使用“中国大陆”(或简称“大陆”)而不是“中国”
那使用【中文(中国大陆)】可以吗?
已经重开,并已经在修正了。
谢谢!

繁简字词跟地区用词即将正式分拆

很久都没有讨论过这个问题了,我已经在rev:28045中正式修改了源码,让繁简字词跟地区用词正式分拆。到更新后的MediaWiki:Conversiontable/zh-hant以及MediaWiki:Conversiontable/zh-hans都会正式成为MW转换系统的正式一部分。而无需要以现时在zh-hk/zh-tw中包含着zh-hant转换表来处理这个问题。同时在语体中文系华佗网站会由5种字体变换增加到7种,所增加的是‘简体(zh-hans)’跟‘繁体(zh-hant)’。到更新后,需要在MediaWiki:Monobook.js中修改相应的项目。

在更新源码的同时,有关的转换字词可能会出现转换问题,到时请在此汇报一下,再查看有什么的解决方法。

到现时为止的‘中文(澳门)/zh-mo’以及‘中文(马来西亚)/zh-my’会否增加到MW的转换系统中,欢迎大家继续讨论这个问题。

终于有进展了,辛苦了。

太好了,终于有简繁公版了,辛苦了。现在简繁系统已很混乱,似乎不适合再增加地区用词分页,应先解决现有问题。另外,建议建立专页,介绍简繁系统的各种技术,以免再度失传,相信这是一个庞大,耗时费日的工程,或可以成立小组的方式进行。

现在这系统,能够容纳多个地区用词页面而不混乱吗?

以前的转换方法是这样的:
变化 转换字词组
zh (无变换中文) -
zh-CN (中国大陆) CN
zh-HK (香港) TW + HK
zh-SG (新加坡) CN + SG
zh-TW (台湾) TW
现在的转换方法基本上是这样的:
变化 转换字词组
zh (无变换中文) -
zh-Hans (简体) Hans
zh-Hant (繁体) Hant
zh-CN (中国大陆) Hans + CN
zh-HK (香港) Hant + HK
zh-SG (新加坡) Hans + SG
zh-TW (台湾) Hant + TW

这样的更改可以先将繁简/地区用字分拆清楚,避免了香港转换表使用台湾转换表的问题(很多的台港字词有歧义);跟新加坡转换表使用中国大陆转换表的问题(很多的中新字词有歧义)。

  • 为什么转换表中显示的是“繁”而不是“繁”!? ]]◆■◆
阁下所指的是页顶标签?因为这设定是应用于全网的,如果可以的话,那就需要在信息档中再修改一下。

这次的分拆尚无法达成像zh-Hans-TW, zh-Hant-CN之类的功能,可惜了点。虽然目前的分拆已经满足社群大部分的需要,像这种特殊的需求大概不多,但是有此种功能的话,对于想学习繁体/简体字的朋友们是很好的。

虽然这样作可以再细分一些,但如果要这样分,那变换就需要十多种了。如果不保留原先的zh-CN/zh-TW/zh-HK/zh-SG等变换,那跟以前的用法就不能相容了。
zh-CN/zh-TW/zh-HK/zh-SG还是有保留的必要性。我这个意见,只是未来如果要扩充功能时可以参考看看。