提高
1.查看数据前三行
head(df,3)或
slice_head(n=3)
2.查看每列数据缺失情况
is.na(df)#适用于小数据
sum(is.na())
table(is.na())#只能知道缺失值的个数并不知道每一列(即每个变量)缺失数据的情况
(1)miss<-function(x){sum(is.na(x)/length(x)*100)}
apply(数据集,2,rate)#2是按列算rate的意思(2)library(tidyverse)
library(naniar)
df %>% miss_var_summary()
3.查看日期列含有缺失值的行
df%>%
filter(is.na(df$日期))
which(is.na(df$日期))日期列缺失的行号
4.查看每列缺失值在哪些行
naIdx = df %>%
where_na()
split(naIdx[,1], naIdx[,2])???
5.删除所有存在缺失值的行
df %>% drop_na()
#若要删除某些列包含缺失值的行,提供列名即可
6.绘制收盘价的折线图
df %>%
ggplot(aes(日期,~收盘价(元)~))+geom_line()
7.同时绘制开盘价与收盘价
df %>%
select(日期,~收盘价(元)~,~开盘价(元)~)%》%
pivot_longer(-日期
names_to="type",
values_to="price")%>%#除了日期以外的其他两列转换为长数据,一列为类型,一列为价格
ggplot(aes(日期,price,color=type))+
geom_line()
敬信老师 注:为了自动添加图例,先对数据做了宽变长转换。
8.绘制涨跌幅的直方图
df %>% ggplot(aes(`涨跌幅 (%)`)) +
geom_histogram()
9.让直方图更细致
df %>% ggplot(aes(`涨跌幅 (%)`)) +
geom_histogram(bins = 40)
10.用 df 的列名创建数据框(修改行、列名)
names(df) %>% as_tibble()或者
df<-as_tibble(names(data1))
names(df)<-c("a2","b2")修改列名
rownames/row.names(df)<c()修改行名
colnames(df)<-c()修改列名
dimnames(ist的第一个输入向量代表行名,第二个输入向量代表列名)
11.输出所有换手率不是数字的行
df %>%
mutate(`换手率 (%)` = parse_number(`换手率 (%)`)) %>% #让换手率变为数字形式的,parse_number函数可以忽略数值前后的非数值型字符。这个函数特别适合处理货币和百分比数据,也可以提取镶嵌在文本中的数值。镶嵌在文本中的数值。比如parse_number("$100")-----100文章来源:https://www.toymoban.com/news/detail-418311.html
filter(is.na(`换手率 (%)`))#此时没有数字形式的就会变为空值,识别后将其筛选出来文章来源地址https://www.toymoban.com/news/detail-418311.html
</
到了这里,关于R语言学习笔记之数据清洗与整理(三)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!