2008年02月24日

10万字サンプルで「文末」を紐解く。

久しぶりに 飛鳥スレ から展開します。

飛鳥の「利き手の使用率の高さ」は、主に文末に集中してる。
日本語には「です。・ます。・する。・いる。」が多いから、これらを連続シフトに充てると自然と片方に偏る。
文末には一旦停止するから、交互打鍵の必要性は薄い。むしろ連続シフトが使えるので吉。

ええと、全体的に言語明瞭・意味不明瞭なんですが、中でも

原因
文末には一旦停止するから
結果
交互打鍵の必要性は薄い

という一文は因果が飛躍しすぎていて、私にはまったく理解不能ですw

4-304 氏の主張は本当に正しいのだろうかという素朴な疑問から、10万字サンプルで「文末」を紐解いてみました。後学のため、使用したツールを記しておきます。

  1. エディタ > 置換
  2. jgawk > 1bn.awk スクリプト
  3. MS-Excel > right 関数
  4. sort
  5. uniq -c

10万字サンプルには全部で 2,304 もの文末(=文章)がありました。1bn.awk は「?」や「!」も文末と判定するので、句点「。」の数よりも「文末」が多くなっています。

「文末」(≒句点の直前)に来るカナの 2-gram。

順位 2-gram 出現数 出現頻度 頻度累積 小梅 1.3.1 飛鳥 21C-356 Nicola
左右別 シフト 左右別 シフト 左右別 シフト
1 ます 315 13.7% 13.7% 左右 左無 右右 左左 右左 右無
2 った 147 6.4% 20.1% 右左 無無 右右 無無 右左 右無
3 した 146 6.3% 26.4% 右左 無無 左右 無無 左左 無無
4 ない 125 5.4% 31.8% 左右 無無 左右 右無 左右 左右
5 です 96 4.2% 36.0% 左右 右無 右右 左左 左左 右無
6 ある 59 2.6% 38.5% 右左 右無 左右 左左 左右 左右
7 いる 53 2.3% 40.8% 右左 無無 右右 無左 右右 無右
8 いた 52 2.3% 43.1% 右左 無無 右右 無無 右左 無無
9 する 38 1.6% 44.7% 右左 無無 右右 左左 左右 無右
10 すね 30 1.3% 46.1% 右右 無右 右左 左左 左右 無無
11 のだ 27 1.2% 47.2% 右左 無右 右左 右左 右左 右右
12 きた 26 1.1% 48.4% 右左 右無 左右 無無 右左 無無
13 ろう 25 1.1% 49.4% 左右 無無 左左 無無 左左 左無
14 せん 24 1.0% 50.5% 左右 左無 左右 左無 左右 無無
15 れた 24 1.0% 51.5% 右左 右無 左右 右無 左左 左無
16 れる 23 1.0% 52.5% 右左 右無 左右 右左 左右 左右
17 んだ 23 1.0% 53.5% 右左 無右 右左 無左 右左 無右
18 しい 22 1.0% 54.5% 右右 無無 左右 無無 左右 無無
19 うか 21 0.9% 55.4% 右左 無無 左右 無無 左左 無無
20 うだ 18 0.8% 56.2% 右左 無右 左左 無左 左左 無右
21 い) 17 0.7% 56.9% 右右 無右 右右 無左 右右 無右
22 ょう 16 0.7% 57.6% 左右 無無 右左 無無 右左 右無
22 よね 16 0.7% 58.3% 左右 左右 右左 左左 右右 右無
24 から 15 0.7% 58.9% 左右 無無 右左 無右 左右 無無
24 てる 15 0.7% 59.6% 左左 無無 左右 無左 左右 無右
26 えた 12 0.5% 60.1% 右左 無無 左右 左無 左左 左無
26 すよ 12 0.5% 60.6% 右左 無左 右右 左左 左右 無右
26 たい 12 0.5% 61.2% 左右 無無 右右 無無 左右 無無
26 まう 12 0.5% 61.7% 左右 左無 右左 左無 右左 右無
30 いう 11 0.5% 62.2% 右右 無無 右左 無無 右左 無無
30 いか 11 0.5% 62.6% 右左 無無 右右 無無 右左 無無
30 える 11 0.5% 63.1% 右左 無無 左右 左左 左右 左右
30 くる 11 0.5% 63.6% 右左 右無 右右 右左 右右 無右
30 さい 11 0.5% 64.1% 左右 左無 右右 右無 左右 無無
35 だよ 10 0.4% 64.5% 左左 右左 左右 左左 左右 右右
35 なる 10 0.4% 64.9% 左左 無無 左右 右左 左右 左右
35 のか 10 0.4% 65.4% 右左 無無 右右 右無 右左 右無

出現数が2桁以上となる 2-gram を全掲載しました。37種類で 2/3 に近い65.4% を占めています。わずか14種類の 2-gram で「文末」の過半数を賄えるんですね。

4-304 氏が指摘する「です・ます・する・いる」は合わせて21.8%を占めますが、あえてこの4つを採り上げる理由は、この表からは見出せません :-P

親指シフトと「文末」。

上の表を配列別にまとめます。各レコードの合計は65.4%になります。


左右別 シフト
左左 交互 右右 連続 逐次 交互
小梅 1.3.1 1.5% 60.4% 3.5% 32.7% 31.6% 1.1%
飛鳥 21C-356 1.9% 29.4% 34.1% 46.8% 15.5% 3.1%
Nicola 14.8% 46.4% 4.2% 18.2% 37.3% 9.9%

正しい数値に修正しました。

「シフト」判定の内訳。
連続
無無
左左
右右
逐次
無左
左無
無右
右無
交互
左右
右左

左手の連打を避けるために、解を交互打鍵に求めた小梅と、右手に求めた飛鳥。そして、左手の連打を許容した Nicola 。「文末」にも 「文末」にこそ、配列毎の特徴が強く現れていました。

なお、2,304 (文末の出現数) × 2 (2-gram) / 104,356 (10万字サンプルの総字数) = 0.0441 で、「文末」が10万字サンプルに占める割合は4.4%となります。意地の悪い書き方をすれば、たとえ「文末」の4%が全て右手に集中したとしても、それだけでは左手:右手=48:52にしかなりません。

おわりに。

主張するなら根拠をちゃんと出してほしいですね。望むのは、ただそれだけです。

本来なら句点「。」を含む 3-gram で解析すべきなのでしょうが、3-gram では交互打鍵でもアルペジオでもない「その他」が頻発してしまって、結果を見ても面白くなかったんです(汗)。だから、特徴がより強く現れた 2-gram を掲載しています。ご了承ください。

関連記事

10万字サンプルにおける 2-gram 頻度。
2007-06-22
10万字サンプルにおける文字の出現頻度。
2007-02-13
posted by 141F at 01:45| Comment(5) | TrackBack(0) | oyayubi | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
文末の4%が右手に集中したなら、
文末に使われる「文字」が右手に集中するので、
実際の上昇率は4%ではないのではないですか?

# 小梅でかきこんでいます。
Posted by kettt at 2008年03月08日 00:38
ある配列が次のような特性を持つものと仮定します。

【文末以外】左:右=50:50
【文末】左:右=0:100

10万字サンプルの構成比は【文末以外】:【文末】=96:4ですから、トータルでは

左:右=(50×96/100+0×4/100):(50×96/100+100×4/100)
=48:52

となります。

52−48=4

ですから、左に比べて右が4ポイント多いのは仰せの通りです。
Posted by 141F at 2008年03月08日 02:40
あ、そうではなくて、

「文末」を右手によせると、「それ以外」もくっついてきませんか?

「い」を右手に動かしたら、それだけで3%くらい右に偏りますよね。「し」も右手に動かしたら5%くらいになっちゃう。
1文字は1回しか使えませんから、結び目のようにくっついてきちゃいます。
「文末」だけが右手に来るなんてことはあり得ないんじゃないかなと思うのですが……。

#急ぐので、AZIKで書きました。
Posted by kettt at 2008年03月08日 03:12
あ、飛鳥スレの書き込みを読み間違えているだけでした。
失礼!いままでの分は読み流してください!

> 飛鳥の「利き手の使用率の高さ」は、主に文末に集中してる。

それはないw

確かにそれは4%だけです。
Posted by kettt at 2008年03月08日 03:17
そうそう、話の入口が入口なので、あえて極端な例示をやっています。
表を見直していて計算間違いを見つけたので、今さらながら修正しておきます(汗)。
Posted by 141F at 2008年03月08日 10:58
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/86220904
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック