Skip to content

yuleshow/Makesure_Zihua

Repository files navigation

Makesure_Zihua

梅玺阁字话,又名《包学包会写繁体》

1. 源起

大陸與臺灣,分別牽涉到三套字體(形),分別是簡體、繁體和正體,也分別有簡繁體、正簡體(不是簡正體)的對照表,然而繁體與正體的對照,始終沒有打通,目前有一表格、文章,是網友們自行整理的,不是很規範也不全,本計劃着眼於从兩岸「官方」文件中整合出一個快速檢閱查找的方法來。

2. 官方字表

2.1 中華民國教育部 4808 個常用字說明 民國71年(1982年)9月1日

中華民國教育部官方入口: https://language.moe.gov.tw/result.aspx?classify_sn=23&subclassify_sn=437&content_sn=46

https://language.moe.gov.tw/001/Upload/Files/site_content/download/mandr/%E6%95%99%E8%82%B2%E9%83%A84808%E5%80%8B%E5%B8%B8%E7%94%A8%E5%AD%97%E8%AA%AA%E6%98%8E.pdf

2.1.1 常用國字標準字體表(A表)

PDF檔
位置: 於References下
文件名: 官方_中國民國教育部4808個常用字.pdf
原下載網址: https://language.moe.gov.tw/001/Upload/Files/site_content/download/mandr/%E6%95%99%E8%82%B2%E9%83%A84808%E5%80%8B%E5%B8%B8%E7%94%A8%E5%AD%97.pdf

ODS檔
位置: 於References下
文件名: 官方_中華民國教育部4808個常用字.ods
原下載網址: https://language.moe.gov.tw/001/Upload/Files/site_content/download/mandr/%E6%95%99%E8%82%B2%E9%83%A84808%E5%80%8B%E5%B8%B8%E7%94%A8%E5%AD%97.ods

TXT檔,由上列ods檔另存為.csv而成,Field delimiter「:」,String delimiter為空
TXT/ORIGIN-A.csv

用perl/A-index-GEN.pl 生成 TXT/A-index.csv

中華民國標準字體查詢各字體入口(含A表、B表): https://language.moe.gov.tw/result.aspx?classify_sn=23&subclassify_sn=436&thirdclassify_sn=475&content_sn=8
相關維基文庫: https://zh.m.wikisource.org/zh-hant/%E5%B8%B8%E7%94%A8%E5%9C%8B%E5%AD%97%E6%A8%99%E6%BA%96%E5%AD%97%E9%AB%94%E8%A1%A8

2.2 次常用國字標準字體表(B表)

中華民國標準字體查詢各字體入口(含A表、B表): https://language.moe.gov.tw/result.aspx?classify_sn=23&subclassify_sn=436&thirdclassify_sn=475&content_sn=8 (同2.1.1)

2.2.1 完整表格

雖然有2.2提及的查詢入口,但至今沒有找到如2.1.1中那樣現成的官方PDF或電子表格,亦沒有找到象A表那樣官方的「教育部字號」
2.2.1.1 借用表格
借用網友表格,出處: https://sites.google.com/site/jzweon/list/chart-of-standard-forms-of-less-than-common-national-characters
直接取文字部分 copy/paste成 TXT/ORIGIN-B.txt
2.2.1.2 調整表格
將 TXT/ORIGIN-B.txt 用 perl/B-index-GEN.pl 調整為用B00000-B06343號的文件,導入新的ODS

ODS檔
位置: 於References下
文件名: 網絡_中華民國教育部6343個次常用字.ods

2.3 通用規範漢字表(G表) 2013年6月18日 中華人民共和國教育部官方入口
http://www.gov.cn/zwgk/2013-08/19/content_2469793.htm

2.3.1 精掃描文件

PDF檔
位置: 於References下
文件名: 官方_中華人民共和國_通用規範漢字表.pdf
原下載網址: http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/cmsmedia/other/2013/7/other98742.zip

2.3.2 文字版

由於未找到文字版官方文件,採用維基文庫,copy/paste 三級字庫文字部分,存於ORIGIN-G,8105字共8175行,用perl/G-index-GEN.pl 整理

ODS檔
位置: 於References下
文件名: 維基_中華人民共和國8105個常用規範漢字.ods
原網址: https://zh.m.wikisource.org/zh-hans/%E9%80%9A%E7%94%A8%E8%A7%84%E8%8C%83%E6%B1%89%E5%AD%97%E8%A1%A8

TXT檔
位置: 於TXT下
文件名: G-index.CSV

3. 簡繁正對照

3.1 中華民國教育部 標準字與簡化字對照手冊 2011年9月

https://ws.moe.edu.tw/001/Upload/userfiles/%E6%A8%99%E6%BA%96%E5%AD%97%E5%B0%8D%E7%85%A7%E7%B0%A1%E5%8C%96%E5%AD%97.pdf
說明: 这個對照表其實衹有A表即《常用字4808字》與正體與簡化字的對照,所以相關文件名均以A表處理

3.1.1 文件

PDF檔
位置: 於References下
文件名: 官方_中華民國教育部-標準字對照簡化字.pdf

ODS檔
此ODS檔由全文複製上列PDF檔後,取第6頁至第90頁內容,去掉空格後,再由emacs用replace-regexp替換而成,如下:
```Replace regexp (default 【[0-9]+ 畫】
``` → ):
Replace regexp (default [0-9]+ 畫~ [0-9]+ 畫
→ ):
Replace regexp (default - [0-9]+ -
→ ):
Replace regexp (default 標準字對照簡化字表
→ ):
Replace regexp (default [0-9]+ 畫
→ ):
替換後,剩4810行,其中「鍾」「蘋」各佔二行
// emacs_lisp ```
-----以上emacs手工,太慢,以下perl大法 -----
將PDF全文複製並保留「- 6 -」至「- 91 -」之間,共5097行,保存至TXT/ORIGIN-A_ZJF.txt
用perl/A_ZJF-GEN.pl直接生成TXT/A_ZJF-unindexed.csv ,作為工作文件,此文件4808行,用「:」分隔為四列,分別為「原正體字」「大陸簡化字」「對應關係」「大陸繁體字」;其中,調整三個字,

用TXT/A-index.csv 和 TXT/A_ZJF.txt 與 perl/A_ZJF-index.pl 生成帶A00000編號的正簡繁體對應表 TXT/A_ZJF-index.txt,最終存為ODS

ODS檔(去掉「佔位」標誌,並添加首行)
位置: 於References下
文件: 整合_中華民國教育部-標準字對照簡化字.ods

3.1.2 調整

A01266,在複製粘貼到ORIGIN-A_ZJF.txt中,「彞」字會自動變成「彝」字,因此强制改回來
「轂」字簡體非「毂」字,「车」字上少了一横,用「♧」代替
取消了「鍾锺鍾」「蘋(艹频)蘋」二行
以上調整均在perl/A_ZJF-index.pl中用正則表達式調整

3.2 中華民國 非常用字表 (B表)

3.2.1 B表對照表

沒有官方的正簡繁體對照表,網友做的也沒有

3.2.2 做一份「假」的B表正簡繁對照表

格式參照A_ZJF-index.csv,共五例,為:編號、正體、簡體、繁體、簡體與正體的對應關係(一對一、一對多、一對未知,由於本表是「假表」,所於全部用「一對未知」)
本假表用到一個中間文件,打開B-index.csv後,直接複製第二列正體字,粘貼到emacs(OpenCC插件,正確率一般)轉換成簡體,並存為TXT/B_J.csv,最終用B_JFY-index.pl 生成 B_JFY-index.csv
由於不同方案的「簡繁轉換」結果不同,用https://www.chineseconverter.com/en/convert/simplified-to-traditional 又轉一遍,用第一次生成的 B_JFY-index.csv 再插入第二次轉成的簡體單獨成列,另存為B_JFY-two.csv,用B_compare.pl 生成比較文件B_JFY-two-diff.csv,人工比較選擇
以上兩行作癈,最終還是選用了Libre Office內帶的繁簡轉換方案,稍稍靠譜點,電腦中文化幾十年,至今沒有好的簡繁轉換碼表,一岸衹顧叫着「自古以來」,另一岸也不知在幹點啥,官方碼表却連一萬個字都不到,哎!
將生成的6343行單字文件,直接存為TXT/ORIGIN-B_J.csv

3.3 中華人民共和國 常用規範漢字表 附件1. 规范字与繁体字、异体字对照表

3.3.1 用其附錄

參攷2.3
維基: https://zh.m.wikisource.org/zh-hans/%E9%80%9A%E7%94%A8%E8%A7%84%E8%8C%83%E6%B1%89%E5%AD%97%E8%A1%A8

3.3.2 文件

將維基附錄1複製黏粘成 TXT/ORIGIN-G_JFY.txt 文件,从「规范字与繁体字、异体字对照表」始至「8100 𫚭 (鱲) 」
用 perl/G_JFY-GEN.pl 生成 TXT/G-JFY-table.csv 文件,成為用「:」隔開成四例,分別為「序號」「簡體字」「繁體字」「異體字」

ODS檔,直接用Libre打開 TXT/G-JFY-table.CSV 另存
位置: 於References下
文件: 整合_中華人民共和國8105個常用規範漢字-附錄1簡繁異表-3222字.ods

3.3.1.1 3222字單行長表生成
輸入文件: G-JFY-table.csv 3222行
輸出文件: G-JFY-long-table.csv 3121行
脚本: perl/G-JFY-long-GEN.pl

3.3.1.2 全索引G表生成
輸入文件: G-index.csv G_JFY-long-table.csv
輸出文件: G_JFY-full-index.txt

ODS文檔
位置: References
文件名: 整合_中華人民共和國8105個常用規範漢字-全簡繁異表-8105字.ods

3.4 AB合並表

cat A_ZJF-index.csv B_ZJF-index.csv > AB_ZJF-index.csv

4. 總索引表

這個以AB表中的簡化字對應G表的簡體字的總索引表

4.1 表格的準備

AB_ZJF-index.csv - AB正簡繁表,整合後的A表和(假)B表,共五列,分別為「編號」「正體」「簡體」「繁體」「簡體對繁體關系」
G_JFY-full-index.csv - G簡繁異表,共五例(個別一對多延長單行),共四列,分別為「編號」「簡體」「繁體」「異體」

4.2 表格的生成

最終用perl/AB-G_ZJFY-full-index.pl生成全索引ABG整合表AB-G_ZJFY-full-index.csv,表內附表頭
有趣的是,最後的總索引表,可以看出8105個大陸規範漢字,在臺灣的「常用」「次常用」表上衹出現了7541個字(其中還有一對多繁體重複的)

5. 其它

5.1 缺字

A01266 「彞」在《官方_中華民國教育部-標準字對照簡化字》中沒有出現,但奇怪的是,這張表還是4808字,待查
上行解決,08/22/20 見3.1.2

5.2 編碼

G1-01360 維基G表的「珊」字是個特殊編碼字,且簡繁異符號不按標準(缺「[]」符號,掃描版正確),未知出錯原因,暫略

5.2 改進

5.2.1 假B表

目前該表是假設所有的繁體與正體相同,下一步應該改進成該字正簡相同情况下,沒有繁體字

perl script Input files Output files
A-index-GEN.pl ORIGIN-A.csv A-index.csv
B-index-GEN.pl ORIGIN-B.txt B-index.csv
G-index-GEN.pl ORIGIN-G.txt G-index.csv
A_ZJF-GEN.pl ORIGIN-A_ZJF.txt A_ZJF-unidexed.csv
A_ZJF-index.pl A_ZJF-unidexed.csv
A-index.csv
A_ZJF-index.csv
B_ZJF-index.pl ORIGIN-B_J.csv
B-index.csv
B_ZJF-index.csv
B_compaure.pl B_ZJ-two.csv B_ZJ-two-diff.csv
G_JFY-GEN.pl ORIGIN-G_JFY.txt G_JFY-table.csv
G_JFY-long-GEN.pl G_JFY-table.csv G_JFY-long-table.csv
G_JFY-full-index.pl G_JFY-long-table.csv
G-index.csv
G_JFY-full-index.csv
AB-G_ZJFY-full-index.pl AB_ZJF-index.csv
G_JFY-full-index.csv
AB-G_ZJFY-full-index.csv
AB-G_ZJFY-extend-index.pl AB_ZJF-index.csv
G_JFY-full-index.csv
AB-G_ZJFY-extend-index.csv
文件名 文件屬性 內容
ABG_ZJFY-final.csv 本計劃的最終文件,包含了A表B表C表的所有文字
AB-G_ZJFY-full-index.csv 中間文件 最終生成的表,用AB表作索引,包含可對應G表部分的全表
AB-G_ZJFY-full-extend-index.csv 中間文件 取代上表的,增加了如果AB表正字對應不到G表,則用正體對應G表的繁體或異體
AB_ZJF-index.csv 合並的AB表,含正簡繁,帶編碼
A-index.csv 用ORIGIN-A.csv生成的A表,帶編碼
A_ZJF-index.csv A表的正簡繁對照表,不含編碼
A_ZJF-unidexed.csv 中間文件 A表的正簡繁對照表,含編碼
B-index.csv 用ORIGIN-B.txt生成的B表,帶編碼
B_ZJF-index.csv 一張(假)表,用自動繁簡轉換結果製成的B表正簡繁對照表
G-index.csv 用ORIGIN-G.txt生成的G表,帶編碼
G_JFY-full-index.csv G表8105字含繁體異體的帶編碼的表
G_JFY-long-table.csv 有繁體異體字的部分G表,不含沒有繁體異體的部分,一對多以單行形式出現
G_JFY-table.csv 中間文件 有繁體異體字的部分G表,不含沒有繁體異體的部分,一對多以重復多行形式出現
ORIGIN-A.csv 原始文件 原始的从ods另存為的A表
ORIGIN-A_ZJF.txt 原始文件 複製自PDF的原文本,中華民國官方A表「正簡繁」對照表
ORIGIN-B_J.csv 原始文件 每行單字共6343行的用B表生成的簡體列表
ORIGIN-B.txt 原始文件 單行的6343個字的文本文件,B表
ORIGIN-G_JFY.txt 原始文件 維基文庫copy/paste的附錄簡繁異部分
ORIGIN-G.txt 原始文件 維基文庫copy/paste三級字表的文本文件

csv, pl, txt 文件命名規則

字母 含義
A A表,中華民國教育部常用國字標準字體表(4808字)
B B表,中華民國教育部次常用國字標準字體表(6343字)
G G表,中華人民共和國通用規範漢字表(8105字)
Z 正體,符合AB表的字
J 簡體,簡化字,符合G表的字,及符合A_ZJF表(《中華民國教育部 標準字與簡化字對照手冊》)的字
F 繁體,符合G表的字
Y 異體,符合G表的字
GEN 初始表格生成
index 帶編碼

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages