「サイト」カテゴリーアーカイブ

メモ

http://code.google.com
グーグルコードの説明を読んでると、
「よく巷ではこういう風な解説がしてあるが、それはベストな方法ではないから、こうしたほうがいいよ。」
みたいなアドバイスがあって何気に参考になる。
しかも、突っ込んでるポイントが役に立つものばかり。
説明も簡素で、書いてあるプログラムもシンプル。

メモ

中国語サイト
ヤフーからのアクセスが意外に多い。中国のヤフーは、今はアリババ傘下になっていて検索エンジンも独自のものらしい。使ってみたらやけにシンプルだった。アリババは最近Sohuの検索技術も買っている。各ポータルサイトの検索エンジンがどうなってるかまだ把握できてない。

百度の検索エンジンは日本版と中国版で結果が全然違う。これはグーグルも同じ。
今は中国版グーグルに行くと香港版に飛ばされる。
百度は、検索ワード入れても正確な結果が出ないことが多い気がする(T_T)

百度は、中国版だと、まず百度百科、次に百度知道の結果が来るものが多い。百度知道は日本のヤフー知恵袋みたいな物で結構充実してる。
百度の日本法人の人が書いた本に読んだところ、中国では百度を使うメイン層は、単語で検索する習慣はなく、文章で検索するらしい。グーグルやヤフー使う層は単語で検索する習慣があるらしい。が、中国は時代の流れが速いので、この習慣もすぐ変化する可能性があるとのこと。

3種類の文章解析

ウィキペディアのAPIを使いたくていろいろ調べてみた。
ウィキのブガッティに関する文章を使い3種類の解析をした結果。名詞のみ。

形態素

<word>

<surface>ヴェイロン</surface>

<reading>ヴぇいろん</reading>

<pos>名詞</pos>

</word>

<word>

<surface>フォルクスワーゲン</surface>

<reading>ふぉるくすわーげん</reading>

<pos>名詞</pos>

</word>

メジャーな名詞はすべて解析してくれた、精度高い。

係り受け

<Morphem>

<Surface>ヴェイロン</Surface>

<Reading>ヴェイロン</Reading>

<Baseform>ヴェイロン</Baseform>

<POS>名詞</POS>

<Feature>名詞,名詞,*,ヴェイロン,ヴェイロン,ヴェイロン</Feature>

</Morphem>

<Morphem>

<Surface>フォルクスワーゲン</Surface>

<Reading>ふぉるくすわーげん</Reading>

<Baseform>フォルクスワーゲン</Baseform>

<POS>名詞</POS>

<Feature>名詞,組織企業,*,フォルクスワーゲン,ふぉるくすわーげん,フォルクスワーゲン</Feature>

</Morphem>

なぜかフォルクスワーゲンが企業名というところまで教えてくれる。ただしブガッティやヴェイロンは名詞までしか出てこない。

キーフレーズ

<Result>

<Keyphrase>ヴェイロン</Keyphrase>

<Score>100</Score>

</Result>

<Result>

<Keyphrase>ブガッティ・オトモビル</Keyphrase>

<Score>98</Score>

</Result>

<Result>

<Keyphrase>フォルクスワーゲン</Keyphrase>

<Score>43</Score>

</Result>

キーフレーズだとスコア順で表示してくれる。
感覚的にもかなりいいところいってる。ただし、今度はブガッティ・オトモビルは出てくるが、ブガッティが出てこなくなった。便利だけど、実際に使おうとすると大変そう(T_T)
やはり正規表現の力技でやるしかなさそう。

eclipseとか

eclipseの使い方がだいぶんわかってきた。
前はテキストエディタでプログラムを書いてが、無駄なことをし過ぎてた(>_<) 素直にいいものは取り入れるようにしよう。 最初は面倒くさそうに見えるものでも、必要なものはちゃんと身に着けておいほうが、結局近道になる。 あと、eclipseのPHPバージョン使ってると、本番環境ではでないエラーが出ることがあるけど、 中のPHPのバージョンの違いによるものらしい。

何気に戦闘力の高いツール

窓の杜 アマザー

このツールかなりいいです。昔からあるようですけど、最近知りました。
ブログの記事など手作業のときに使うアマゾン用のツールとしては最強だと思う。
高機能なわけではなくて、使う人が欲しいような機能がちょうどよく揃ってる。
思わず使いながらニヤニヤしてしまった。これ作った人はよくわかってらっしゃる。

ブラウザに表示しているアマゾンページの画像をドラックアンドドロップしてツールの画面にやると、書籍情報など取得して用意していたHTMLのテンプレの中に入れ込んでタグを吐き出してくれる。ISBNコードや画像URLなども個別に取り出しやすくなるのでサブツールとしても役に立つ。今までGtoolを使ってたけど、こっちに移ってしまった。