実査終了後、コンピュータで分析するため、2段階で準備します。
これらの作業には手間暇がかかりますが、制度の高い分析をするには極めて重要です。
1.調査票のエディティング(点検)
- 回答のコーディング(coding:符号化)ー回答をすべて数字に置き換える作業
- ExcelのPivot Tableを用いる場合は、数字に置き換える必要はありません。
2.データのインプット(入力)、クリーニング
1.調査票の点検と回答のコード化 ー 有効票の確定
- 調査票の点検
調査票に記入されている質問のすべてに、所定の方法で対象者が回答してくれることはめずらしいため、点検が必要です- 記入漏れ
- 想定外(所定の方法以外)の回答(1つだけ選ぶ質問で、2つ以上選んでいる場合など)
- ふざけて、いいかげんに回答
- 調査員による不正記入(メーキング)
- エディティングの進め方
-
- 想定外の回答へは所定の対処
- 調査票の中の記入漏れの項目の有無を検べ、コーディング
○がついていない、空白のまま- 無回答9 ー 答えたくない(NA:No Answer)
- わからない(DK:Don’t Know)
- 非該当8 ー 〜な人だけ回答してください
- 記入の不完全な調査項目を検出する
- 回答の記入の誤りを検出する
- 読みにくい文字を書き直す
- 計算の誤りを検出し訂正する
- 回答の記入法を統一する
- 計算値を記入する
- 指定された調査対象に関する調査票が確保されたか検べる
- 調査員の不正を発見する
- これらの作業により、調査票上の回答がすべて数値に置き換わる
- 有効票と無効票に分けられる
2.データクリーニング(data cleaning、データクレンジングともいう)
- 書式などがバラバラな状態で管理されているデータを整備して使いやすい状態にすること
ア データに欠測(不足データ)がある場合の補てん
- その箇所にもともとデータがなかった
- データはあったが、入力をしそこなった、あるいは入力しないことにした
- 入力すべきデータではなかった
- 「0」のデータを空欄に置き換えた
- ⇒ その行を削除、もしくは、全データの平均値を入れるなど
イ 異常値が含まれている場合
- 入力間違い
- 例1:人の体重を50kgと入力するところに500kgと入れてしまった
- 例2:年齢のデータがマイナスになっている(誕生日ー現在の日付のように数式が間違っていた)
- 想定していない値
- 例:アンケート調査で、「1.そう思わない 2.あまり思わない 3.ややそう思う 4.そう思う」 の問いに、 「5」という回答があった
- アンケートを答えた人が間違って回答した
- 入力する段階で間違えたか
- 注意:間違って入力された異常値だと思っても、実は正常なデータの場合もありえる。
例:体重が150kgというデータがあった場合、 相撲取りであれば、150kgの体重もふつうにありえる数値。
- ⇒ 質問紙を確認し、修正が必要なら、正しく入力
- ⇒ 最小値・最大値を調べる
ウ 誤字、脱字の修正
エ 表記ゆれの統一 例:「有」か「無」なのに、「有り」や「あり」がまざっている
- ⇒ 有に統一
オ 重複データの削除 例:同じ人の答えが2行に入力
- ⇒ 片方を削除
参考:統計学入門