
地名と語の関連度を抽出してみた結果、厳しめの条件下で関連語を抽出して関連度の高い順にソートしてみたところ・・・
| 順位 | 地名 | 関連語 | 関連度 |
|---|---|---|---|
| 1 | 北巣本保育園 | 野菜畑 | 0.00189959 |
| 2 | 錦小路 | 亜理紗 | 0.00168004 |
| 3 | 西梅田 | ブリーゼブリーゼ | 0.00156355 |
| 4 | 毎日新聞 | - | 0.00150275 |
| 5 | 北巣本保育園 | 行政代執行 | 0.00145956 |
| 6 | 石川 | 紺野 | 0.00110605 |
| 7 | 丹波 | 黒豆 | 0.00104415 |
| 8 | 仙台市 | 青葉区 | 0.00100548 |
| 9 | 千代田区 | 外神田 | 0.00093271 |
| 10 | 門真市 | 撤去 | 0.00075045 |
| 11 | 青森県 | 八戸市 | 0.00073961 |
| 12 | 門真市 | 野菜畑 | 0.00071280 |
| 13 | 神戸市 | 東灘区 | 0.00067534 |
| 14 | 門真市 | 行政代執行 | 0.00067343 |
| 15 | 江戸 | 東京博物館 | 0.00063997 |
| 16 | 大河ドラマ | 篤姫 | 0.00062660 |
| 17 | 木更津 | ハピ | 0.00059147 |
| 18 | 品川 | 庄司 | 0.00057632 |
| 19 | 丹波 | 枝豆 | 0.00057005 |
| 20 | 伊勢 | 志摩 | 0.00055107 |
| 21 | 佐賀 | バルーンフェスタ | 0.00053038 |
| 22 | 中京区 | 京都市 | 0.00052528 |
| 23 | 西日本 | 東日本 | 0.00051322 |
| 24 | 奈良公園 | 鹿 | 0.00048233 |
| 25 | 伏見区 | 京都市 | 0.00046962 |
| 26 | 滋賀県 | 野洲市 | 0.00046319 |
| 27 | 茨城県 | つくば市 | 0.00045936 |
| 28 | 栃木県 | 宇都宮市 | 0.00045402 |
| 29 | ミナミ | 帝王 | 0.00044920 |
| 30 | 栃木県 | 佐野市 | 0.00044709 |
概ねよさげな感じなんですが、18番「品川」→「庄司」ってのと29番「ミナミ」→「帝王」ってのが。。。
まぁ確かに「品川」って地名はあるし「ミナミ」も地名っちゃ地名だけど、やっぱモデルに地名と語の距離を利用するとこうなるんですね。
ちなみに地名の抽出にはCRF(Conditional Random Fields)による識別モデルを用いてます。だから大河ドラマとかひっかかっちゃってる模様。