2007年02月13日

10万字サンプルにおける文字の出現頻度。

リクエストをいただきましたので、改めて掲載しておきます。タブ区切りで、順位、文字、出現数、出現頻度となっています。計 104,357 字あります。

1	い	6,906	6.618%
2	う	4,643	4.449%
3	ん	4,366	4.184%
4	し	3,858	3.697%
5	か	3,647	3.495%
6	と	3,317	3.179%
7	の	3,247	3.111%
8	た	3,105	2.975%
9	て	2,793	2.676%
10	な	2,788	2.672%
11	、	2,728	2.614%
12	に	2,304	2.208%
13	。	2,266	2.171%
14	く	2,232	2.139%
15	こ	2,212	2.120%
16	で	2,152	2.062%
17	っ	2,095	2.008%
18	き	2,082	1.995%
19	は	2,025	1.940%
20	ま	1,985	1.902%
21	が	1,975	1.893%
22	す	1,933	1.852%
23	も	1,867	1.789%
24	る	1,859	1.781%
25	ら	1,504	1.441%
26	り	1,487	1.425%
27	ょ	1,469	1.408%
28	お	1,464	1.403%
29	だ	1,413	1.354%
30	つ	1,392	1.334%
31	れ	1,311	1.256%
32	じ	1,309	1.254%
33	あ	1,236	1.184%
34	を	1,216	1.165%
35	け	1,004	0.962%
36	さ	928	0.889%
37	ち	926	0.887%
38	せ	907	0.869%
39	そ	889	0.852%
40	ど	871	0.835%
41	わ	855	0.819%
42	よ	825	0.791%
43	え	818	0.784%
44	ひ	691	0.662%
45	め	661	0.633%
46	ろ	616	0.590%
47	み	568	0.544%
48	「	561	0.538%
49	」	560	0.537%
50	や	559	0.536%
51	ー	558	0.535%
52	ゃ	554	0.531%
53	ご	471	0.451%
54	ほ	458	0.439%
55	ば	455	0.436%
56	ゅ	453	0.434%
57	ね	428	0.410%
58	ふ	421	0.403%
59	ぶ	374	0.358%
60	む	359	0.344%
61	ざ	320	0.307%
62	ぜ	311	0.298%
63	げ	288	0.276%
64	ぎ	273	0.262%
65	び	255	0.244%
66	ず	233	0.223%
67	ぼ	224	0.215%
68	ゆ	214	0.205%
69	1	195	0.187%
70	べ	175	0.168%
71	へ	167	0.160%
72	0	159	0.152%
73	〜	150	0.144%
74	ぐ	143	0.137%
75	ぱ	137	0.131%
76	2	122	0.117%
77	(	117	0.112%
78	)	115	0.110%
79	ぞ	103	0.099%
80	?	99	0.095%
81	ぷ	90	0.086%
82	づ	83	0.080%
83	ぽ	78	0.075%
84	3	77	0.074%
85	!	76	0.073%
86	ぺ	75	0.072%
87	−	73	0.070%
88	A	54	0.052%
89	5	48	0.046%
90	E	46	0.044%
91	6	45	0.043%
91	・	45	0.043%
93	ぬ	44	0.042%
94	4	43	0.041%
95	R	36	0.034%
96	S	35	0.034%
97	T	33	0.032%
98	D	32	0.031%
98	O	32	0.031%
100	8	31	0.030%
101	I	30	0.029%
102	ぇ	29	0.028%
103	7	26	0.025%
103	ぴ	26	0.025%
105	9	25	0.024%
105	.	25	0.024%
107	ぁ	24	0.023%
108	C	22	0.021%
109	,	21	0.020%
109	L	21	0.020%
111	X	20	0.019%
112	N	19	0.018%
113	P	18	0.017%
113	ぃ	18	0.017%
115	%	17	0.016%
116	>	16	0.015%
116	M	16	0.015%
118	B	15	0.014%
119	F	14	0.013%
119	H	14	0.013%
121	J	13	0.012%
122	G	12	0.011%
123	U	11	0.011%
124	Y	10	0.010%
124	ぉ	10	0.010%
126	Q	8	0.008%
127	;	7	0.007%
127	K	7	0.007%
129	/	6	0.006%
130	V	5	0.005%
131	=	4	0.004%
132	W	3	0.003%
132	Z	3	0.003%
134	”	2	0.002%
134	+	2	0.002%
136	゛	1	0.001%
136	:	1	0.001%
136	<	1	0.001%
136	ヴ	1	0.001%
136	ぢ	1	0.001%
136	ゎ	1	0.001%
137	ぅ	0	0.000%

ことあるごとに Excel で総当たり計算をやっていて、いわゆる n-gram は算出していません。申し訳ないす。

posted by 141F at 23:10| Comment(3) | TrackBack(3) | oyayubi | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
どうもお世話になります。
バランスの取れたサンプル用意するのは大変そうですね。
(ググればすぐ出てくると思ってましたorz)
Posted by ΝΝ at 2007年02月14日 00:23
初めまして、私沖縄県 宜野湾市役所 統計係の嘉手苅と申します。

この度、統計について関心を持ってもらうため、市内の子供たち向けのチラシ

を作成しており、そのチラシの中で「141F」様の掲載されている以下の値を参考に、

グラフ化し紹介させて頂きたいと考えております。

「141F」の著作物である掲載内容の使用の許可をお願いしたいのですが

いかがでしょうか。

グラフ化した資料は、市内中学校(約3000名)の予定しております。

チラシのデータが必要な場合はご連絡いただければ送信致しますので、

ご査収とご検討のほどよろしくお願い致します。

借用したい掲載内容↓
2007年02月13日掲載の
「10万字サンプルにおける文字の出現頻度。」


Posted by 嘉手苅 斉 at 2016年10月05日 17:20
http://61degrees.na.coocan.jp/profile.html#local_rule

上の記事に示した通り、

・引用に許可は要りません。許可なく引用します。
(中略)
・いかなる場合も転載や不正な使用はお断わりします。

と約束しているので、適切な引用でしたら許可なく行っていただいてけっこうです。
転載や不正な使用は、いかなる場合でもお断りします。

掲載チラシをインターネット上に公開されるのでしたら、リンクをコメントで紹介していただけると嬉しいです。
Posted by 141F at 2016年10月05日 23:52
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック

かなの出現頻度の話がエキサイトニュースで
Excerpt: 「「あいうえおかきくけこ……」一番使われているひらがなはどれ?」(『エキサイトニュース』)  エキサイトニュースの記事では出現数ベスト10とワースト4しか載ってませんが、全順位が載っている調査も..
Weblog: ローマ字入力でもなく、かな入力でもなく
Tracked: 2007-05-29 22:46

クロスワードパズルにおける使用文字
Excerpt: 唐突ですが、あるグラフ。 クロスワードパズルにおける、カナの使用頻度です。 クロスワードの盤面なので、 ・出てくる言葉は名詞に限られる。 ・清音、濁音、半濁音は区別する。 ・拗音、促音に使わ..
Weblog: どんより
Tracked: 2007-06-10 17:18

10万字サンプルにおける 2-gram 頻度。
Excerpt: 10万字サンプルの 2-gram 頻度を .csv 形式で公開します。
Weblog: Weblog 61℃
Tracked: 2007-06-22 01:07