10万字サンプルの 2-gram 頻度を .csv 形式で公開します。横軸が1字め、縦軸が2字めで、数値は実数です。親指シフトですから、清音と濁音は別扱いです。
凡例
1字め | |||||
---|---|---|---|---|---|
ぃ | い | ぅ | う | ||
2字め | か | 0 | 237 | 0 | 332 |
が | 0 | 95 | 0 | 175 | |
き | 0 | 194 | 0 | 88 | |
ぎ | 0 | 20 | 0 | 10 |
1字めが「い」、2字めが「き」の「いき」が194回、同様に「う」と「が」の「うが」が175回発生していることが読み取れます。
ダウンロード
- 2-gram.csv — 10万字サンプル 2-gram 頻度表 (zip 圧縮 8,863 byte)
- 2007-06-22
使用上の注意
- 11本の文書を繋げて処理しています。1字めが「空白」の 2-gram が 11 あるのは、そこが文書の先頭だからです。それにしては、2字めが「空白」な 2-gram が 0 なのは、何故でしょう? Excel の挙動がイマイチ分かりません。
- 英数字や記号の処理の仕方が、文書によってまちまちでした。とりあえずそのままで。
- 10万字サンプルの最頻出 2-gram は「ょう」でした。どっちも下段…。
関連記事
- 10万字サンプルにおける文字の出現頻度。
- 2007-02-13
ラベル:親指シフト