Crear data frame en r

Crear data frame en r

Crear un marco de datos vacío en r

Por defecto, el marco de datos devuelve variables de cadena como un factor. Slice Data FrameEs posible SLICE los valores de un Data Frame. Seleccionamos las filas y columnas a devolver en corchetes precedidos por el nombre del marco de datos. Un marco de datos está compuesto por filas y columnas, df[A, B]. A representa las filas y B las columnas. Podemos cortar cualquiera de los dos especificando las filas y/o las columnas. En la imagen 1, la parte izquierda representa las filas y la parte derecha las columnas. Tenga en cuenta que el símbolo : significa a. Por ejemplo, 1:3 pretende seleccionar los valores de 1 a 3. En el siguiente diagrama mostramos cómo acceder a diferentes selecciones del marco de datos: Observe que, si dejamos la parte izquierda en blanco, R seleccionará todas las filas. Por analogía, si dejamos la parte derecha en blanco, R seleccionará todas las columnas. Podemos ejecutar el código en la consola: ## Seleccionar la fila 1 en la columna 2
Seleccionar una columna de un marco de datosA veces, necesitamos almacenar una columna de un marco de datos para su uso futuro o realizar una operación sobre una columna. Podemos utilizar el signo $ para seleccionar la columna de un marco de datos. # Seleccionar el ID de la columna

R crea dataframe a partir de vectores

A lo largo de este libro trabajamos con “tibbles” en lugar del tradicional data.frame de R. Los tibbles son marcos de datos, pero modifican algunos comportamientos antiguos para hacer la vida un poco más fácil. R es un lenguaje antiguo, y algunas cosas que eran útiles hace 10 o 20 años ahora se interponen en su camino. Es difícil cambiar la base de R sin romper el código existente, por lo que la mayor parte de la innovación se produce en los paquetes. Aquí describiremos el paquete tibble, que proporciona marcos de datos opinables que hacen que trabajar en el tidyverse sea un poco más fácil. En la mayoría de los lugares, usaré el término tibble y data frame indistintamente; cuando quiera llamar la atención en particular sobre los data frames incorporados en R, los llamaré data.frames.
Casi todas las funciones que utilizará en este libro producen tibbles, ya que los tibbles son una de las características unificadoras del tidyverse. La mayoría de los otros paquetes de R utilizan marcos de datos regulares, por lo que es posible que desee coaccionar un marco de datos a un tibble. Puede hacerlo con as_tibble():
Si ya está familiarizado con data.frame(), tenga en cuenta que tibble() hace mucho menos: nunca cambia el tipo de las entradas (por ejemplo, ¡nunca convierte cadenas en factores!), nunca cambia los nombres de las variables y nunca crea nombres de filas.

Nombres de las columnas de r data.frame

Esto significa que puedes pensar en él como una tabla, y como cualquier tabla tiene dos dimensiones: de izquierda a derecha y de arriba a abajo. Si vas de izquierda a derecha a través de la tabla, verás las columnas, y si vas de arriba a abajo verás las filas.
Así que, abre RStudio y crea un nuevo archivo de script e introduce el siguiente código. Hágalo a mano, así que no haga trampa y copie la pasta. Si haces eso no aprenderás y será mejor que veas en YouTube vídeos de lluvia de chocolate o arco iris doble1. Y ahora, a por ello:
Los tibbles son la versión moderna de los marcos de datos. Son mucho mejores en varios aspectos, ninguno de los cuales voy a explicar ahora. Lo importante es saber que vienen de serie con cualquier paquete del tidyverse y que son la razón por la que podemos construir marcos de datos en notación por filas como acabamos de hacer. Así que vamos a echar un vistazo más de cerca a eso.
En el bloque de código anterior, creamos un marco de datos llamado cool_people. Para ello, utilizamos el comando tribble(), que significa “row-wise tibble”. A continuación, escribimos los nombres de las columnas, precedidos por el carácter ~:

R crea un marco de datos con nombres de columnas

El subconjunto de corchetes es práctico, pero puede ser engorroso y difícil de leer, especialmente para operaciones complicadas. Introduzca dplyr. dplyr es un paquete que facilita la manipulación de datos tabulares. Se complementa muy bien con tidyr, que permite convertir rápidamente los datos en diferentes formatos para su representación y análisis.
Ya deberías haber instalado y cargado el paquete tidyverse. Si aún no lo hemos hecho, podemos escribir install.packages(“tidyverse”) directamente en la consola. A continuación, para cargar el paquete escriba library(tidyverse)
El paquete dplyr proporciona herramientas sencillas para las tareas más comunes de manipulación de datos. Está construido para trabajar directamente con marcos de datos, con muchas tareas comunes optimizadas al estar escrito en un lenguaje compilado (C++). Una característica adicional es la capacidad de trabajar directamente con datos almacenados en una base de datos externa. Las ventajas de hacer esto son que los datos pueden ser gestionados de forma nativa en una base de datos relacional, las consultas se pueden llevar a cabo en esa base de datos, y sólo se devuelven los resultados de la consulta.

Acerca del autor

admin

Ver todos los artículos