データ分析の前に必要な作業

投稿者: | 2018 年 9 月 27 日

実査終了後、コンピュータで分析するため、2段階で準備します。
これらの作業には手間暇がかかりますが、制度の高い分析をするには極めて重要です。

1.調査票のエディティング(点検)

  • 回答のコーディング(coding:符号化)ー回答をすべて数字に置き換える作業
  • ExcelのPivot Tableを用いる場合は、数字に置き換える必要はありません。

2.データのインプット(入力)、クリーニング


1.調査票の点検と回答のコード化 ー 有効票の確定

  • 調査票の点検

    調査票に記入されている質問のすべてに、所定の方法で対象者が回答してくれることはめずらしいため、点検が必要です

    • 記入漏れ
    • 想定外(所定の方法以外)の回答(1つだけ選ぶ質問で、2つ以上選んでいる場合など)
    • ふざけて、いいかげんに回答
    • 調査員による不正記入(メーキング)
  • エディティングの進め方
    1. 想定外の回答へは所定の対処
    2. 調査票の中の記入漏れの項目の有無を検べ、コーディング
      ○がついていない、空白のまま

      • 無回答9 ー 答えたくない(NA:No Answer)
      • わからない(DK:Don’t Know)
      • 非該当8 ー 〜な人だけ回答してください
    3. 記入の不完全な調査項目を検出する
    4. 回答の記入の誤りを検出する
    5. 読みにくい文字を書き直す
    6. 計算の誤りを検出し訂正する
    7. 回答の記入法を統一する
    8. 計算値を記入する
    9. 指定された調査対象に関する調査票が確保されたか検べる
    10. 調査員の不正を発見する
  • これらの作業により、調査票上の回答がすべて数値に置き換わる
  • 有効票と無効票に分けられる

2.データクリーニング(data cleaning、データクレンジングともいう)

  • 書式などがバラバラな状態で管理されているデータを整備して使いやすい状態にすること
ア データに欠測(不足データ)がある場合の補てん
  • その箇所にもともとデータがなかった
  • データはあったが、入力をしそこなった、あるいは入力しないことにした
  • 入力すべきデータではなかった
  • 「0」のデータを空欄に置き換えた
  •  ⇒ その行を削除、もしくは、全データの平均値を入れるなど
イ 異常値が含まれている場合
  • 入力間違い
    • 例1:人の体重を50kgと入力するところに500kgと入れてしまった
    • 例2:年齢のデータがマイナスになっている(誕生日ー現在の日付のように数式が間違っていた)
  • 想定していない値
    • 例:アンケート調査で、「1.そう思わない 2.あまり思わない 3.ややそう思う 4.そう思う」 の問いに、 「5」という回答があった
  • アンケートを答えた人が間違って回答した
  • 入力する段階で間違えたか
  • 注意:間違って入力された異常値だと思っても、実は正常なデータの場合もありえる。
    例:体重が150kgというデータがあった場合、 相撲取りであれば、150kgの体重もふつうにありえる数値。
  • ⇒ 質問紙を確認し、修正が必要なら、正しく入力
  • ⇒ 最小値・最大値を調べる
ウ 誤字、脱字の修正
エ 表記ゆれの統一
  例:「有」か「無」なのに、「有り」や「あり」がまざっている
  • ⇒ 有に統一
オ 重複データの削除
 例:同じ人の答えが2行に入力
  • ⇒ 片方を削除

参考:統計学入門