ウィキペディアのAPIを使いたくていろいろ調べてみた。
ウィキのブガッティに関する文章を使い3種類の解析をした結果。名詞のみ。
形態素
<word>
<surface>ヴェイロン</surface>
<reading>ヴぇいろん</reading>
<pos>名詞</pos>
</word>
<word>
<surface>フォルクスワーゲン</surface>
<reading>ふぉるくすわーげん</reading>
<pos>名詞</pos>
</word>
メジャーな名詞はすべて解析してくれた、精度高い。
係り受け
<Morphem>
<Surface>ヴェイロン</Surface>
<Reading>ヴェイロン</Reading>
<Baseform>ヴェイロン</Baseform>
<POS>名詞</POS>
<Feature>名詞,名詞,*,ヴェイロン,ヴェイロン,ヴェイロン</Feature>
</Morphem>
<Morphem>
<Surface>フォルクスワーゲン</Surface>
<Reading>ふぉるくすわーげん</Reading>
<Baseform>フォルクスワーゲン</Baseform>
<POS>名詞</POS>
<Feature>名詞,組織企業,*,フォルクスワーゲン,ふぉるくすわーげん,フォルクスワーゲン</Feature>
</Morphem>
なぜかフォルクスワーゲンが企業名というところまで教えてくれる。ただしブガッティやヴェイロンは名詞までしか出てこない。
キーフレーズ
<Result>
<Keyphrase>ヴェイロン</Keyphrase>
<Score>100</Score>
</Result>
<Result>
<Keyphrase>ブガッティ・オトモビル</Keyphrase>
<Score>98</Score>
</Result>
<Result>
<Keyphrase>フォルクスワーゲン</Keyphrase>
<Score>43</Score>
</Result>
キーフレーズだとスコア順で表示してくれる。
感覚的にもかなりいいところいってる。ただし、今度はブガッティ・オトモビルは出てくるが、ブガッティが出てこなくなった。便利だけど、実際に使おうとすると大変そう(T_T)
やはり正規表現の力技でやるしかなさそう。