3種類の文章解析

ウィキペディアのAPIを使いたくていろいろ調べてみた。
ウィキのブガッティに関する文章を使い3種類の解析をした結果。名詞のみ。

形態素

<word>

<surface>ヴェイロン</surface>

<reading>ヴぇいろん</reading>

<pos>名詞</pos>

</word>

<word>

<surface>フォルクスワーゲン</surface>

<reading>ふぉるくすわーげん</reading>

<pos>名詞</pos>

</word>

メジャーな名詞はすべて解析してくれた、精度高い。

係り受け

<Morphem>

<Surface>ヴェイロン</Surface>

<Reading>ヴェイロン</Reading>

<Baseform>ヴェイロン</Baseform>

<POS>名詞</POS>

<Feature>名詞,名詞,*,ヴェイロン,ヴェイロン,ヴェイロン</Feature>

</Morphem>

<Morphem>

<Surface>フォルクスワーゲン</Surface>

<Reading>ふぉるくすわーげん</Reading>

<Baseform>フォルクスワーゲン</Baseform>

<POS>名詞</POS>

<Feature>名詞,組織企業,*,フォルクスワーゲン,ふぉるくすわーげん,フォルクスワーゲン</Feature>

</Morphem>

なぜかフォルクスワーゲンが企業名というところまで教えてくれる。ただしブガッティやヴェイロンは名詞までしか出てこない。

キーフレーズ

<Result>

<Keyphrase>ヴェイロン</Keyphrase>

<Score>100</Score>

</Result>

<Result>

<Keyphrase>ブガッティ・オトモビル</Keyphrase>

<Score>98</Score>

</Result>

<Result>

<Keyphrase>フォルクスワーゲン</Keyphrase>

<Score>43</Score>

</Result>

キーフレーズだとスコア順で表示してくれる。
感覚的にもかなりいいところいってる。ただし、今度はブガッティ・オトモビルは出てくるが、ブガッティが出てこなくなった。便利だけど、実際に使おうとすると大変そう(T_T)
やはり正規表現の力技でやるしかなさそう。

コメントを残す