Rで始めるデータサイエンス⑥新しい変数を作る。

2019年5月22日

小さいデータセットを作る
flights_sml <- select(flights, *変数を選ぶ
year:day, *yearからdayの間まで
ends_with(“delay”), *末尾にdelayを含む
distance,
air_time
)

新しい変数を作る
mutate(flights_sml,
gain = dep_delay – arr_delay,
speed = distance / air_time * 60
)

変数を保持するだけ。
transmute(flights,
gain = dep_delay – arr_delay,
hours = air_time / 60,
gain_per_hour = gain / hours
)

割り算
x == y * (x %/% y) + (x %% y)

累積
> X <- c(1:10)
> X
[1] 1 2 3 4 5 6 7 8 9 10
> lag(X)
[1] NA 1 2 3 4 5 6 7 8 9
> lead(X)
[1] 2 3 4 5 6 7 8 9 10 NA
> cumsum(X)
[1] 1 3 6 10 15 21 28 36 45 55
> cummean(X)
[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

ランク付け
> y <- c(1, 2, 2, NA, 3, 4)
> min_rank(y)
[1] 1 2 2 NA 4 5
> min_rank(desc(y))
[1] 5 3 3 NA 2 1
> row_number(y)
[1] 1 2 3 NA 4 5
> dense_rank(y)
[1] 1 2 2 NA 3 4
> percent_rank(y)
[1] 0.00 0.25 0.25 NA 0.75 1.00
> cume_dist(y)
[1] 0.2 0.6 0.6 NA 0.8 1.0

Follow me!