我是卑微的尿尿,总有一天,我会让你们每个该吃屎的人都吃屎
Day 1 DS review: 一些神奇用法,可以省时间
review 了啥?从下往上看
就酱~
这个也很厉害,lets say 你有一些时间序列data,都是points,但是你想有一个完整的时间序列,那就得compelte. 适用场景有merging data, 或者你需要创建一些entries给data entry monkey to enter.

hmm 看上去很厉害,我还是不会

我也就看看,我不会,我得练

我就看看,我不会

神奇!

写好看

pivot_longer 就names_to, values_to, 我欲归去。。。。

这么写就很麻烦了

stata once more,某个stata scene 重现, 这个写法很特殊, 不能忘记 ``` 我的latin American键盘得按“><” 键


我觉得这个visualization 是datacamp 的牛逼之处,赞一个

当年 wto data consultant 的test 就是用 fill 做的
在cleaning data 里很管用哦!!

replace_na() 里的0 有很多不一样的format
关于missing value NA 完全可以出一本书了 different type of NA

和 excel 的一些功能较相近 - 把两个columns 合在一起

这个应该是Reshaping Data with tidyr 里的。 所以你看,tidyr 包括 seperate
tidyr 和excel的某些data cleaning 较相近

我对dplyr 包括那些比较基本的select,filter, mutate
tidyr 就比較fancy了,包括pivot_wider, pivot_longer....

这个有点像stata 的 summarize,告诉你每个category有几个东西

mutate 神奇用法:这么写,其实很省时间,这相当于是省了一个 case_when structure.

成吧,我猜这些select,filter,transmute是windows function

lag的意义 - 看过了许多美女,看过了许多美景。。。

活得明白的人 会用transmute 自定义variable哈哈哈
transmute = mute + select

rename多费劲啊

直接在select里重命名的人都活得明白

非常intuitive,但是谁会想到哈哈

contains 是很神奇的,1992_growth, 1993_growth, 这种wide data 就很容易select

select 神法:这个我知道的

传说中的top_n

算前3名用slice_max()

这个我比较生疏,slice_max() 貌似是之前的top_n (1, var)

hmm 好像过去也知道count 可以用weight

Like my work?
Don't forget to support or like, so I know you are with me..
Comment…