Leer desde un archivo CSV:
datos <- read.csv(file='C:/ruta/nombre_archivo.csv')
Si deseas ampliar el tema «como leer un CSV en R» accede a este enlace: https://r-coder.com/leer-csv-r/
Previsualizar los primeros 10 datos del dataframe:
head(datos, n=10)
Previsualizar los últimos 10 datos del dataframe:
tail(datos, n=10)
Agregar paquete dplyr:
El paquete dplyr contiene una colección de funciones para realizar operaciones de manipulación de datos comunes como: filtrar por fila, seleccionar columnas específicas, reordenar filas, añadir nuevas filas y agregar datos.
install.packages("dplyr")
library(dplyr)
Contar el número de registros (filas) que tiene un dataframe:
count(datos)
Contar el número de registros (filas) que tiene una columna:
En donde rooms es el nombre de la columna.
length(datos$rooms)
Resumen general de las características de cada columna del dataframe:
summary(datos)
Resumen de las características de una columna específica:
En donde rooms es el nombre de la columna.
summary(datos$rooms)
Obtener la mediana de los valores de una columna:
median(datos$rooms)
Obtener el promedio de los valores de una columna:
mean(datos$rooms)
Eliminar columnas de un dataframe:
En este ejemplo se eliminan las columnas lat, lon, currency, title y description del dataframe datos, las columnas restantes son asignadas a un nuevo dataframe llamado df.
df <- select(datos, -lat, -lon, -currency, -title, -description)
Sumar valores perdidos (NA) de un dataframe:
sum(is.na(df))
Sumar valores perdidos (NA) de una columna:
En donde bathrooms es el nombre de la columna.
sum(is.na(df$bathrooms))
Eliminar valores perdidos (NA)
Existen varios métodos, en este caso vamos a utilizar drop_na(), para esto necesitamos la biblioteca «tidyr».
install.packages("tidyr")
library(tidyr)
drop_na() Elimina filas con valores iguales a NA. Primero busca valores NA en una columna y luego descarta las filas.
Eliminar valores NA de una columna:
df2 <- df %>% drop_na(bathrooms)
Eliminar valores NA de varias columnas:
df2 <- df %>% drop_na(bathrooms,surface_total, surface_covered)