院生エンジニアのにっき

  • Change style to Blue
  • Change style to Red
  • Change style to Green
  • Change style to Pink

修士論文執筆中・・・・   2009-02-13

地名と語の関連度を抽出してみた結果、厳しめの条件下で関連語を抽出して関連度の高い順にソートしてみたところ・・・

順位地名関連語関連度
1北巣本保育園野菜畑0.00189959
2錦小路亜理紗0.00168004
3西梅田ブリーゼブリーゼ0.00156355
4毎日新聞 - 0.00150275
5北巣本保育園行政代執行0.00145956
6石川紺野0.00110605
7丹波黒豆0.00104415
8仙台市青葉区0.00100548
9千代田区外神田0.00093271
10門真市撤去0.00075045
11青森県八戸市0.00073961
12門真市野菜畑0.00071280
13神戸市東灘区0.00067534
14門真市行政代執行0.00067343
15江戸東京博物館0.00063997
16大河ドラマ篤姫0.00062660
17木更津ハピ0.00059147
18品川庄司0.00057632
19丹波枝豆0.00057005
20伊勢志摩0.00055107
21佐賀バルーンフェスタ0.00053038
22中京区京都市0.00052528
23西日本東日本0.00051322
24奈良公園鹿0.00048233
25伏見区京都市0.00046962
26滋賀県野洲市0.00046319
27茨城県つくば市0.00045936
28栃木県宇都宮市0.00045402
29ミナミ帝王0.00044920
30栃木県佐野市0.00044709

概ねよさげな感じなんですが、18番「品川」→「庄司」ってのと29番「ミナミ」→「帝王」ってのが。。。

まぁ確かに「品川」って地名はあるし「ミナミ」も地名っちゃ地名だけど、やっぱモデルに地名と語の距離を利用するとこうなるんですね。

ちなみに地名の抽出にはCRF(Conditional Random Fields)による識別モデルを用いてます。だから大河ドラマとかひっかかっちゃってる模様。


コメントを書く