現在、大きなカテゴリーでしか分類されていない。
分類するためには、必要な項目だけでいい。
たくさんあるトピックスのファイル。
タイトルと本文だけを取り出すことを考える。
HTMLのファイル。コメントが振られている。
タイトルや本文をどうやって取り出すの?
エディタで検索?
ひとつひとつやっていたんではいくら時間があっても終わらない。
フリーソフトを探す。
抽出で引っかかったソフト。
行番号と一文は表示される。でも、1回に1キーワード。
タイトルと本文を対にしたい。
以前に出席した講習会を思い出す。
確か、ファイルがあったはず。
あった。
XPを起動する。
doteconvを試してみる。
文字化け。エディタで開く。
UTF-8N?
どうやらFireFTPのデフォルトで文字コードが違っていたらしい。
変換ソフトを探す。
KanjiTranslatorにドラッグ。
なんとかShift-JISになった。
doteconvに戻って、再度抽出。
本文の中のHTMLタグまで抽出されるが、まず第1段階完了。
さあ、これをどうやって管理する?