Rでのファイルのインポート方法

R でデータを読み込むファイル形式

一般にデータ分析で扱うファイルの種類は大きく分けて2つあるのが実情です。

1つ目はExcel形式のファイル
そして、2つ目がcsv形式のファイルになります。
Excel形式のファイルは拡張子が「xls」または、「xlsx」となっています。
この拡張子はファイルを右クリックし、プロパティを選択することによって確認できます。

csv形式のファイルというのはカンマ「,」でデータを区切ったファイルのことです。

例えば、achievement.csvをエディタなどで開くと次のようになっているのが確認できるでしょう。


Excel形式のファイルはExcelのメニューからcsv形式に変換することができます。

ここではachievement.csvというファイルを用意しました。
このファイルをR読み込んで操作を始める前にある特有の概念について学んでおきましょう。

 

R特有の概念

ここでR特有の概念を3つ学びましょう。

  1. オブジェクト
  2. 代入
  3. 関数

1.オブジェクト

Rではデータなどを”オブジェクト“と呼びます。
例えば、これからcsvファイルを読み込んでデータとして操作しますがRに取り込まれたデータはオブジェクトとなります。

2.代入

オブジェクトには便宜的に名前を与え、この名前を通してデータ操作を行います。
ここでオブジェクトに名前をつける操作を”代入“と言います。

Rでは代入に矢印
つまり、小なり記号ハイフン(<-)という記号を使います。

そして、この矢印(<-)を代入記号
あるいは、代入演算子と呼び、代入記号の右側にあるデータに名前をつける操作です。

オブジェクトの名前は任意
つまり、あなたの好きな名前をつけることができます。

ここでは小文字の「X」としています。
入力の手間を軽減するためオブジェクト名には半角英数字の短い名前を使うことをお勧めします。

ただし、オブジェクト名の冒頭を数字にすることはできないので注意してください。

尚、代入記号の前後には半角スペースを挟んでおきましょう。
※これは必須ではないのですが、コードの可読性が高まります。

3.関数

関数はRを操作する上で最も重要な概念です。
例えば、ファイルからデータを読み込むのもRでは関数を使います。

Rには多くの関数が用途別に用意されています。

例えば、csvファイルを読み込むには「read.csv()」という関数を使います。
ほとんどの関数は何をするかを表す英単語をベースに構成されています。

 

データを読み込んで見る

それでは、サンプルデータを読み込んでみましょう。
データの読み込みはメニューからマウスで操作することも可能ですが、ここではコードを書いて実行していきます。
「first」名前をつけたプロジェクトを作成しましょう。
プロジェクトの作り方は既に紹介しています。
そのため、ここではこのachievement.csvがプロジェクトのフォルダにあることを確認しましょう。

それではRStudio画面でのRコード入力へと移りましょう。

作業ディレクトリの確認

以下のように入力してください。

「getw」まで入力して、Tabキーと押すと、入力候補で「getwd()」と出てきますのでこれを選びましょう。

コード
getwd()

 

するとコンソール画面に現在Rプロジェクトが位置しているディレクトリが表示されます。
この「getwd()」は「get working directory」の略で、現在どこで作業しているのかを教えてくれる関数です。

つまり、この場合デスクトップ上の「first」というフォルダの中にあることがわかります。

 

csvファイルのデータ読み込み

先ほどの名前と合わせるためにオブジェクトの名前は「x」という名前にしましょう。
オブジェクトに代入するのは矢印(<-)を用います。

その後、「read.csv()」関数でデータの読み込みを行います。
そのデータの場所は先ほどのディレクトリ情報の後にスラッシュ(/)そして、achievement.csvとします。
関数名の中に引用符で指定しているのはファイルの名前です。

コード
x <- read.csv("ディレクト/ファイル名")

 

このファイルの中身は架空のデーターですが、ある高校のクラス40名の期末試験の結果だと捉えてください。
もう一つこの操作をした場合ファイルが見当たらないというエラーが表示されることがあります。

Rでは操作に問題があった場合はエラーが表示されます。
逆に、操作に成功した場合は特に何も表示されません。

データの確認方法

それでは正確にデータが読み込まれたかを確認しましょう。
データの冒頭部分を表示するには「head()」関数を使います。
デフォルトでは指定されたデータの冒頭6行が表示されます。

「he」まで入力をして tabキーを押しましょう。
すると、一番上に「head()」が出てくると思いますので、これをEnterで選択しましょう。

自動的に丸括弧()の間に位置しているので、そこに小文字で「x」と入力して実行です。

コード
head(x)

 

皆さんは無事にデータの読み込みができてるでしょうか.

同様にheまで入力してtabキーを押しましょう。そして、オブジェクトの「x」の後にカンマ(,)と10を入力して実行です。

コード
head(x,10)

 

また、関数に続く丸括弧の中に置く指定を「引数」といいます。
この例でいいますと、head関数では「xと10が引数」でxはデータを示すオブジェクト
10は表示する行数を表しています。

最初の引数を第一引数、2つ目を第2引数と呼ぶこともあります。

まとめ

  1. csv形式のデータファイルをachievement.csvとする
  2. Rでは操作は全て関数を実行することで実現される
    また、これらはマウスの操作ではありません。
  3. csvファイルを読み込むための「read.csv()」関数を用いる
  4. 関数を使ってデータを読み込む
  5. 読み込んだデータをRでは”オブジェクト”と呼ぶ
  6. オブジェクトには名前をつける
    この名前の付け方を”代入”と言います。
  7. Rではオブジェクトに名前をつけ、この名前を通し、操作します。
    例えば、オブジェクトの冒頭だけを表示させるには「head()」関数に引数を与えて実行します。

これでR特有の概念を学ぶことができました。