テキストの抽出

投稿者: | 2009 年 3 月 16 日

現在、大きなカテゴリーでしか分類されていない。

分類するためには、必要な項目だけでいい。

たくさんあるトピックスのファイル。

タイトルと本文だけを取り出すことを考える。

HTMLのファイル。コメントが振られている。

タイトルや本文をどうやって取り出すの?

エディタで検索?

ひとつひとつやっていたんではいくら時間があっても終わらない。

フリーソフトを探す。

抽出で引っかかったソフト。

行番号と一文は表示される。でも、1回に1キーワード。

タイトルと本文を対にしたい。

以前に出席した講習会を思い出す。

確か、ファイルがあったはず。

あった。

XPを起動する。

doteconvを試してみる。

文字化け。エディタで開く。

UTF-8N?

どうやらFireFTPのデフォルトで文字コードが違っていたらしい。

変換ソフトを探す。

KanjiTranslatorにドラッグ。

なんとかShift-JISになった。

doteconvに戻って、再度抽出。

本文の中のHTMLタグまで抽出されるが、まず第1段階完了。

さあ、これをどうやって管理する?