2011-01-01から1年間の記事一覧

XML::Simple

同期にXML解析について聞かれたのでその時に用意したドキュメントをそのままぺたり。 どっちかと言うとリファレンスの利用方法とかそっち系が強い気がする。意外と、あるデータ構造が与えられてそのデータ構造をどうやって扱うのとかそういうクリティカルな…

pLSA(pLSI)用共起行列の作成

既に2年前にやったことですが、今回はpLSA(pLSI)というものに焦点を。 pLSA(なんと99年に発表された論文)は言語処理とかそういう分野に限定せず色々なところで応用の効く手法ですが、言語処理の場合、共起行列(単語文書行列)と呼ばれるものを前処理と…

Webスクレイピング

備忘録的にまとめていこうシリーズ、今回はWebスクレイピングの話題を。 超今更感のあるスクレイピングです。例によってPerlです。 スクレイピング=必要な情報を毟り取ってくること ところで、スクレイピングってAPIでとってくるのと違うらしいんだけど何が…

Google APIについて

後輩くんの研究のお手伝いで今日利用したGoogle API(特にMap)。 自分の備忘録も兼ねてまとめておこうかと。(研究室向け的な意味合いも兼ねて) ●Google Maps API リクエスト数に制限は無し ジオコードリクエストは上限あり(1日あたり2500件) 他のAPI同…

htmlのコンテンツ抽出

私の研究内容とは離れますが、後輩くんの研究のお手伝い。 今回は"ExtractUniqueBlock"を使ってみた。 htmlソースから本文を抽出するにはいくつかの方法があるけど、朝日新聞とかのニュース記事から本文のみを抽出するってなると正規表現を駆使しても結構き…

研究めも

今月の作業 : 質問応答システムの作り直し 研究室で外部に公開するための質問応答システムを2年前に作ったわけです。 で、その時に作ったものだと長時間動かしてるとバグがあったりとか、去年改修した際にバグがちょっと出始めたのでこの機会に作り直した…

Macbook Pro の拡張

Mac

Macbook Pro の購入からはや半年。 ってことでメモリを増設してみよーーってことです。メモリ4GB(2GB×2)が標準で入ってるわけで、それ自体はあまり不満はないのですが、VMwareとXcodeを同時に起動したりすると結構重くなったりと地味に不満があったわけで…

就職活動

細かいことはmixiに書きましたが、就職活動終わりました。 広島4社、東京3社。(選考始まる前に終わってしまった東京2社もありますが。。。地震め)結果的に広島1社、東京1社で内々定。 いろいろ考えた結果、昔からやりたかったことだけど茨の道確定な…