User Tools

Site Tools


You are not allowed to perform this action
hcistats:start_jp

HCI研究者向け統計手法

矢谷浩司 (http://yatani.jp)

お断り(さきにお読みください!)

このwikiは元々,HCIの研究でよく使う統計手法に関する私個人のノートでした.ですが,他の研究者にとっても便利な情報をあると思い,公開するに至ったものです.このwikiにはRのコードも載せていますので,ご自身のデータで簡単に試すこともできるようになっています.このwikiでは数学的な内容はあまりカバーしていませんが,そのようなものだと思ってお読みください.

申し上げておきますと,私自身は統計の専門家ではありません.このwikiにあるコンテンツは私自身の経験といろんなリソースから学んだことを並べているだけです.一応チェックはしていますが,内容の正確さを100%保証するものではありません.ですので,みなさんの判断の上でwikiの内容を使ってください. このwikiの内容を利用した結果に関しては私は一切の責任を持たないものといたします.ですので,分析の仕方が間違っていたり,論文が落とされたり,分析の結果が指導教官の先生に気にいられなくても,私の責任ではありません.:) それからできれば他の本なども見て自分の分析が正しいことを確認してから,実行するようにしてください.

このwikiではRを使っています.Rのインストールと基本的な使い方はできると仮定していますが,必要に応じてオンラインマニュアルを参考にしてみてください.


このwikiは?

このwikiは元々矢谷の個人のノートだったものですが,HCIの研究者・学生にとって役に立つ内容もあるだろうと思い,公開しているものです.HCIの研究者・学生の中には統計学に関するトレーニングを受けていない人も多い(かくいう私もその一人ですが...)ので,そのような人たちでも最低限のことが正しく理解できて,正しく基礎的な統計手法を利用できる,ことを目指してwikiの内容を組み立てています.

このwikiを公開しようと思ったもう1つの理由は,HCIの研究者・学生向けのよい統計のトレーニングが確立されておらず,また統計手法に関して議論する場が限られている現状があるためです.バイオや心理学では統計手法に関してどのように使うべきかという知識がコミュニティに共有されているため,あまり問題ないようでありますが,HCIの分野は残念ながらそうではありません.このwikiがHCIにおける統計手法の在り方を議論する手助けになればと思っております.

また最近では帰無仮説検定手法(NHST)に関して,その結果をどのように扱うべきかという議論が他分野でなされています(詳しくはこちらのページへ).このwikiではNHSTだけはなく,回帰分析や機械学習なども含めて,様々な統計手法を扱っていきたいと思います.


実験計画をしっかり立てる

統計手法はとても強力で,たいていの場合は何らかの統計手法がみなさんのデータの分析に使えるはずです.なので,実験をやり終えてから,「どんな手法で分析しようか?」と考えがちです.

しかし私としては,実験を考える段階でどんな統計手法を使って分析ができるかを考えることをおすすめしています.いろんな統計手法は確かに存在しますが,中には使い方が難しいものもあります.ですので,実験を上手く計画して,シンプルな手法や一般的なものを使えるようにするのがよいと思います.また,実験自体をできるかぎり簡潔にすることも重要だと思います.この結果として分析もシンプルですみますし,自分が実験をするときになって苦労せずに済みます.もし自分の実験計画がシンプルに見えないときは,手をつける前に一度再考してみてください.

もう1つ考えておいてもらいたいことは,データの型です.特に,従属変数(計測するもの)がratioかintervalであるとよいです. こうなることで,使うことのできる統計手法が増えます.もしratioかintervalにできない場合は,最低でもordinalにしたいところです.万が一nominalなデータしか手に入らないのであれば,実験計画を再検討することまで立ち戻ってもよいと思います.データの型に関してはこのページを見てください


どんな統計手法を使うといいか?

このページがどんな統計手法を使えばいいかの指標として役に立つと思います.以下のテーブルはこのページを参考にして私が作ったものです.ただし,このテーブルでだいたいのケースは大丈夫だと思いますが,ご自身で本当にOKか確認することを忘れないでください.

Interval/Ratio (正規性有り)Interval/Ratio (正規性なし), OrdinalDichotomy (2値)
2つの対応のないグループを比較対応のないt検定マン=ホイットニーの検定フィッシャーの検定
2つの対応があるグループを比較対応のあるt検定ウィルコクソンの検定マクネマーの検定
3つ以上の対応のないグループを比較ANOVAクラスカル=ウォリスの検定カイ二乗検定
3つ以上の対応があるグループを比較反復測定ANOVAフリードマンの検定コクランのQ検定
2変数間の関係性を見いだすピアソンの相関係数スピアーマンの相関係数クラマーのV
1つの説明変数から値を予測する線形,非線形回帰分析ノンパラメトリック回帰分析ロジスティクス回帰
複数の説明変数から値を予測する重回帰分析ロジスティクス回帰分析

回帰分析においては,多くの場合線形分析を試すのがよいと思いますが,以下の記述が異なる回帰分析手法を選ぶ判断基準になると思います.

  1. 説明変数が1つで被験者内要因がない場合は線形回帰. もし独立変数が2値ならばロジスティクス回帰分析
  2. 説明変数が複数あって被験者内要因がない場合は重回帰分析.
  3. 被験者内要因がある場合はマルチレベル線形回帰分析(混合モデル).
  4. もっと複雑な場合はGLM (Generalized Linear Model).

統計の基本 (というより実験や分析の前にやること)

帰無仮説検定を補完する手法

パラメトリックな手法

ノンパラメトリックな手法

相関

潜在変数に関する分析

回帰分析

リンク

Paul CairnsによるHCIにおける統計分析に関する論文があります.この論文はこのwikiを作ろうと思った1つの理由でもあります. HCI... not as it should be: Inferential Statistics in HCI Research.

帰無仮説検定(NHST)に関してはいろいろな危険性が議論されています.例えば,The Insignificance of Statistical Significance Testing by Johnson, Douglas H.The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant by Gelman, A., and Stern, H. があります.しかし,HCIではNHSTをまだ多用していますので,このwikiはその理解を助けると共に,今後どのように統計手法が扱われるべきか,研究コミュニティーとして議論する一助になればと思っております.

私自身はあまりRに関する本などは持っていません.多くの場合インターネット上に必要な情報があると思いますので,まずは検索してみるのがいいと思います.R自体に関してはよいマニュアルも存在します. ちょっとしたテクニックなどはこちらのページにも載せていますので参考にしてください.

個人的に好きな統計の本としてはSPSS survival manualがあります.SSPSユーザにとってはとてもよく書かれている本だと思いますし,Rユーザにとっても役に立つところがいろいろあると思います.このwikiもその本に習って,できる限り解説をわかりやすくしたつもりです.

回帰分析に関してご興味がある方はこちらの本をおすすめします.Data Analysis Using Regression and Multilevel/Hierarchical Models by Andrew Gelman and Jennifer Hill. 非常にわかりやすく説明されている上に,数学的な素養が多くなくても読み進められる本です.

その他役に立ちそうなリンクです.


コメント

このwikiに関してご意見や間違いなどがありましたら,矢谷(koji at-mark iis-lab.org)までご連絡ください.なお,個々の分析に関するアドバイス等は残念ながらお手伝いできませんので,ご了承ください.

hcistats/start_jp.txt · Last modified: 2017/03/07 05:57 by Koji Yatani