10万字サンプルで「ゐゑゎ」以外のカナと句読点「。、」、長音「ー」の合計101,156字を打鍵した時に、拗音がどれだけ出現するのか、今一度確かめます。いつもの 2-gram データから拗音全部を抜き出します。
- 10万字サンプルにおける 2-gram 頻度。
- 2007-06-22
10万字サンプルに登場する拗音
| 出現数 | |
|---|---|
| うぇ | 3 |
| ヴぇ | 1 |
| きゃ | 26 |
| きゅ | 69 |
| きょ | 156 |
| ぎゃ | 22 |
| ぎょ | 87 |
| しゃ | 292 |
| しゅ | 147 |
| しょ | 394 |
| じぇ | 1 |
| じゃ | 112 |
| じゅ | 101 |
| じょ | 206 |
| ちぇ | 3 |
| ちゃ | 90 |
| ちゅ | 74 |
| ちょ | 229 |
| てぃ | 6 |
| でぃ | 8 |
| にゃ | 1 |
| にゅ | 25 |
| ひゃ | 4 |
| ひゅ | 5 |
| ひょ | 243 |
| びゅ | 7 |
| びょ | 19 |
| ぴゅ | 7 |
| ぴょ | 3 |
| ふぁ | 8 |
| ふぃ | 4 |
| ふぇ | 19 |
| ふぉ | 9 |
| みゅ | 2 |
| みょ | 14 |
| りゃ | 7 |
| りゅ | 15 |
| りょ | 118 |
| 計 | 2,537 |
10万字サンプルの直拗比率
101,156−2,537×2=10,156 101,156 −5,074=96,082 ですから、10万字サンプルにおける直拗比率は直音96,082:拗音5,074≒19:1で、拗音は全体の5%未満であることが分かります。
10万字程度のサンプリングでは「ぎゅ」や「にょ」、「みゃ」が登場していなかったりして、文章毎の偏りを平準化しきれていないことも分かりますね。
あれ、96,082+2,537=98,619 で、蜂蜜小梅配列の名目打鍵数として公表している 98,630 と一致しません。こちらは近日中に計算を見直します。申し訳ありません。
19:1=84:75
蜂蜜小梅配列は現在の 2.5.0 版で、カナに限って言えば、直音と捨て仮名単体を合わせた 84 字と、拗音 75 組 を定義しています。5%未満の頻度に75組ですから、拗音の配置は規則性が高くないと本当に覚えきれません。
蜂蜜小梅配列は誕生した時から、拗音を子音+母音で入力する行段系的なアプローチを採り、徐々に抽象度を高めて現在の姿に至っています。当初から「親指キー同時シフト+文字キー同時シフトのハイブリッド同時打鍵」を標榜してきましたが、
| シフト方式 | 入力方式 | |
|---|---|---|
| 直音 | 親指キー同時シフト | カナ系 |
| 拗音 | 文字キー同時シフト | 行段系 |
と、二重にハイブリッドだったのかと今さらながら思い当たりました。
2014-11-11 追記
中井悠詞さんからこの発言に対するコメントを、次の記事にいただきました。
- 蜂蜜小梅配列 2.5.6 版です(了)
- 2014-03-10
http://61degc.seesaa.net/article/273787748.html
「10万字サンプルの直拗比率」の計算式の一部が「10,156」になっているのと、「拗音5,074」は「拗音2,537」だと思います。拗音は2文字で1音なので。それと、ネット上で拗音の出現率が2%台という情報を見かけて気になりましたので。
数式中の「10,156」は「101,156」に訂正しました。ご指摘ありがとうございました。
さてと、この直拗比率の計算は、実は私も正解にたどり着くまで迷った記憶があります。数値の取り扱いで最も大切なことは、単位に気を配ること。単位が異なるデータ同士を掛け合わせても、意味のある答えにはたどり着けません。
そして、どう計算すればいいか迷った時は、指折り数えられるミニマムモデルで試してみると、視界がぱっと開けてきたりします。
試しに、「集中」1語の直拗比率を確かめてみましょう。「しゅうちゅう」を直拗分解すると拗「しゅ」+直「う」+拗「ちゅ」+直「う」で、合計4モーラ・6字あります。
- モーラで数える → 直音2モーラ:拗音2モーラ=直拗比率1:1
- 字数で数える → 直音2字:拗音4字=直拗比率1:2
単位が違えば、計算方法とその結果も自ずと異なります。私は「10万モーラサンプル」ではなく「10万字サンプル」の直拗比率を求めているので、2,537モーラ×2字=5,074字と字数ベースで計算しています。



シン蜂蜜小梅配列NE
