テキストの抽出

投稿者: mthpy | 2009 年 3 月 16 日

0件のコメント

現在、大きなカテゴリーでしか分類されていない。

分類するためには、必要な項目だけでいい。

たくさんあるトピックスのファイル。

タイトルと本文だけを取り出すことを考える。

HTMLのファイル。コメントが振られている。

タイトルや本文をどうやって取り出すの？

エディタで検索？

ひとつひとつやっていたんではいくら時間があっても終わらない。

フリーソフトを探す。

抽出で引っかかったソフト。

行番号と一文は表示される。でも、１回に１キーワード。

タイトルと本文を対にしたい。

以前に出席した講習会を思い出す。

確か、ファイルがあったはず。

あった。

XPを起動する。

doteconvを試してみる。

文字化け。エディタで開く。

UTF-8N?

どうやらFireFTPのデフォルトで文字コードが違っていたらしい。

変換ソフトを探す。

KanjiTranslatorにドラッグ。

なんとかShift-JISになった。

doteconvに戻って、再度抽出。

本文の中のHTMLタグまで抽出されるが、まず第１段階完了。

さあ、これをどうやって管理する？

Iconic One Theme | Powered by Wordpress