RをUbuntu18で 機械学習&統計学 入門

最近ちょっと底辺ITサラリーマン生活でいろいろ変化がありまして、これまでは会社の情報システム部??のようなところでIT雑用をやっていたのですが、なんと念願かないまして今流行りの機械学習や深層学習を実際の情報システムに落とし込むような仕事に移動することになり(少なくとも栄転ではないですね。。追い出された感じ?)、最近は空き時間はひたすらに機械学習、深層学習の勉強に当てています。

以前もちょろっと実験してますが、深層学習といえばTensorFlowやKerasに代表するようにPythonが分かれば十分コーディングできるんだと思いますが、やはり機械学習の数学的基礎の統計学を再学習するにあたり、やっぱりPythonよりはRを使ったほうがいろいろ勉強になりますので、Rの基本的な使い方を初心者視点で書いてみたいと思います。検定とか学生の頃やった記憶がありますが、何じゃこれ?と思っていたレベルの学生でしたが、今更ながらしっかり勉強しなかったことを後悔です。

昔こんな写経やったことありました。

環境はUbuntu18.04です。

R インストール

言わずとしれた統計の超有名ソフトですね。私でも以前から知ってました。インストールはこちらですね。

$ sudo apt install r-base-core

はじめはコマンドラインだけで十分ですね。


R テスト描画

Rを実行してSIN関数を描画してみます。

$ R
> plot(sin, 0, 2*pi)

plot関数を実行すると別画面に図が表示されますね。

ちなみにRは対話形式ですが、ファイルにコマンドをまとめてRscriptコマンドでファイル名を指定してまとめて実行できますね。こちらのほうがよく使いそうな気がしますね。。test.Rというテストt検定を実施する場合はこんな感じですね。

#test.R 特に意味のないt検定
 
data1 <- c(1,2,3,4,5,6)
data2 <- c(4,3,2,5,6,7)
t.test(data1, data2, var.equal=T)

を作成して実行

$ Rscript test.R

結果出力

	Two Sample t-test

data:  data1 and data2
t = -0.92582, df = 10, p-value = 0.3763
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.406665  1.406665
sample estimates:
mean of x mean of y 
      3.5       4.5 

何でも簡単に検定できちゃいそうですね。