2007年06月22日

10万字サンプルにおける 2-gram 頻度。

10万字サンプルの 2-gram 頻度を .csv 形式で公開します。横軸が1字め、縦軸が2字めで、数値は実数です。親指シフトですから、清音と濁音は別扱いです。

凡例


1字め
2字め 0 237 0 332
0 95 0 175
0 194 0 88
0 20 0 10

1字めが「い」、2字めが「き」の「いき」が194回、同様に「う」と「が」の「うが」が175回発生していることが読み取れます。

ダウンロード

2-gram.csv — 10万字サンプル 2-gram 頻度表 (zip 圧縮 8,863 byte)
2007-06-22

使用上の注意

  1. 11本の文書を繋げて処理しています。1字めが「空白」の 2-gram が 11 あるのは、そこが文書の先頭だからです。それにしては、2字めが「空白」な 2-gram が 0 なのは、何故でしょう? Excel の挙動がイマイチ分かりません。
  2. 英数字や記号の処理の仕方が、文書によってまちまちでした。とりあえずそのままで。
  3. 10万字サンプルの最頻出 2-gram は「ょう」でした。どっちも下段…。

関連記事

10万字サンプルにおける文字の出現頻度。
2007-02-13
タグ:親指シフト
posted by 141F at 01:10| Comment(0) | TrackBack(1) | oyayubi | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/45542520
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック

10万字サンプルにおける 3-gram 頻度。
Excerpt: 3-gram 頻度表を作成しました。16,132 位まで全部で 32,367 行ありました。
Weblog: Weblog 61℃
Tracked: 2012-01-18 23:59