R Notebook¶

Un compendio de recursos y ejemplos sobre cómo usar R para diferentes cosas.

Aportes, correcciones y comentarios bienvenides!

Cheatsheets¶

Notas de desarrollo de paquetes en R¶

Algunas experiencias de armar paquetes; algunos con apps de shiny o que compilan funciones de C.

Link al sitio.

IDEs para R¶

R-studio
Bio7
Jupyter + IR Kernel
Repl - Online R Editor
Visual Studio Code
...

RStudio¶

Ver el sito dedicado.

Excelente IDE para trabajar en R, con soporte para reticulate/Python, y bocha de funcionalidad para desarrollo de paquetes.

Atajos en R-studio.

VSCode¶

Instalacion en Arch:

  sudo pacman -S code

En R, correr:

  install.packages(“languageserver”)

Instalar complementos para R:

Un tutorial (se puede saltear la parte de instalar "R LSP Client", creo que esta incluida ahora).
Otro tutorial.
Instalar radian parece piola.

Settings:

++++Mostrar JSON conf file|json conf

{
    "window.zoomLevel": 2,
    "terminal.integrated.shell.linux": "/bin/zsh",
    "r.bracketedPaste": true,
    "r.alwaysUseActiveTerminal": true,
    "r.rterm.linux": "/home/TU_USUARIO/.local/bin/radian",
    "r.rpath.linux": "/usr/bin/R",
    "workbench.statusBar.visible": false
}

++++

Keybindings en ~/.config/Code\ -\ OSS/User/keybindings.json

++++Mostrar JSON keybindings|json keybs

// Place your key bindings in this file to override the defaultsauto[]
[
    {
        "key": "ctrl+t",
        "command": "r.createRTerm",
        "when": "editorTextFocus"
    },
    {
        "key": "alt+-",
        "command": "editor.action.insertSnippet",
        "when": "editorTextFocus",
        "args": {
            "snippet": " <- "
            }
    },
        {
        "key": "ctrl+shift+m",
        "command": "editor.action.insertSnippet",
        "when": "editorTextFocus",
        "args": {
            "snippet": " %>% "
            }
    },
        {
        "key": "ctrl+alt+i",
        "command": "editor.action.insertSnippet",
        "when": "editorTextFocus",
        "args": {
            "snippet": "```{r}\n```"
            }
    },
    {
        "key": "ctrl+shift+c",
        "command": "editor.action.commentLine",
        "when": "editorTextFocus && !editorReadonly"
    }
]

++++

Lenguaje¶

Ayuda¶

Leer la documentacion: ver viñetas, usar ?.
Pedir ayuda :P
Googlear errores!

Base¶

> ?Syntax

Asignaciones: <- = -> <<-

Los pipes: |> %>% %$%

Ver alignment chart: https://twitter.com/ivelasq3/status/1404947187155574787

Paréntesis y llaves: () {}

Dos puntos: :

Acceder a datos: [] $ @

Operaciones básicas: + - * ** ^ / %% %/%

Operadores para filtrar ¹²: & | ! && || > < == %in%

Verdadero, Falso y missing value: TRUE, FALSE, T, F, NA, NULL

Funciones anónimas: function(x) \(x)

Cosas raras:

things-that-confuse-new-r-coders
a <- b <- "y esto?"

El infierno de R.

Avanzado¶

Objetos: funciones, datos, S4, …

Buenas prácticas: codear con estilo, r-coding-style-guide

Environments y scopes:

https://adv-r.hadley.nz/environments.html
Changing the enclosing environment, useful for functions in packages.

Evaluación: I(), deparse(substitute(object)), eval, non-standard evaluation y tidy evaluation.

Expresiones regulares: regex

 * [[https://www.r-bloggers.com/demystifying-regular-expressions-in-r/|desmitificaciones]]
* [[https://regex101.com/|https://regex101.com/]] para armar y debuggear tus regex.
* regex [[https://dev.to/emmawedekind/regex-cheat-sheet-2j2a|cheatsheet]]
* armar regex [[https://www.r-bloggers.com/programmatically-generate-regex-patterns-in-r-without-knowing-regex/|sin regex]]
* algo que las arme [[https://www.r-bloggers.com/regex-problem-heres-an-r-package-that-will-write-regex-for-you/|por mi]].

Funciones:

`>`() es la función que dice si algo es mayor a otra cosa, fijate: `>`
Uno puede pasar funciones a los argumentos de una función… funception (?)
… se llama elipsis y es tu amigue.

Debuguear:

debug, debugonce, ":::" y trace
browse()
options(error=recover): https://stackoverflow.com/a/1412607/11524079
traceback(): https://stackoverflow.com/a/1446050/11524079
- options(error = quote({dump.frames(to.file=TRUE); q()}))
Breakpoints en RStudio.

Programación orientada a objetos en R:

S3
También están los objetos "S4"

Paralelización y HPC¶

Ver página dedicada: proyectos/atr/temas-sugeridos/parallel

Dos paquetes amigables: foreach y doParallel
Clusters: PSOCK, FORK, y otros.
Chunking.
Una guía con plyr: https://jstaf.github.io/hpc-r/
El tidyverse tambien tiene sus implementaciones, pero no las exploré.
En R base, se usa parallel y funciones como parLapply

Cursed R¶

Listas de la nada:

> x = NULL
> x[["asd"]][["sdf"]] = 3
> x
$asd
$asd$sdf
[1] 3

Datos: Tipos y Estructuras¶

Como tener y usar "tidy data".

Cargar y guardar datos 1: read_files

Cargar y guardar datos 2: save, saveRDS, fread y fwrite, y feather para R y Python.

Estructuras: array, c(), data.frame, data.table, matrix, RLE, list, objetos, ...

Tipos de datos: numeric, character, logical, factor, typeof()

Strings: strings en R base, quasi-quotation

Cómo usar glue (en vez de paste).

A veces conviene trabajar con una base de datos real (tipo SQL, por ejemplo). En ese caso hay diferentes maneras de interactuar con ellos. Una es usar DBI.

Ayuda con fechas y el tiempo: https://www.r-bloggers.com/lubridate-ggplot-date-helpers/

Manipulación de tablas y datos¶

Manipulación en Base R:

Seleccionar elementos con [] y [[ ]] (por índice o por nombre)
subset() y select()
Operador %in%
Ojo al usar datos[x, ] cuando x es un factor; puede no tener el efecto que esperás.
order(), split(), match()
apply() y lapply
matrices y arrays

Data wrangling:

plyr
filtrar y programar con dplyr.
tidyverse
data.table y más data.table
Condicionales: ifelse y case_when (link).
with(), %>% .[. > x], `>`(), xor()

Misc:

Comparación entre base, data.table y dplyr: data.table wins
helfRlein
Por qué no usar pipes %>%.

Multiple column melt / pivot_longer¶

Por estas cosas es que odio el tidyverse... fucking pretensiosos de la elegancia. Me dan ganas de editar R en vi.

Con melt: https://stackoverflow.com/a/28786520

Con pivot_longer: https://community.rstudio.com/t/pivot-longer-on-multiple-column-sets-pairs/43958/12

En melt de data.table, el uso de los argumentos es un poco más transparente. La desventaja es que no deja lindos los nombrecitos directamnte: https://stackoverflow.com/q/57435780

La ventaja es que entendes lo que hace.

```{r}
anscombe %>% data.table::setDT() %>% 
  data.table::melt(measure.vars = patterns("x", "y"),
                   variable.name = "id",
                   value.name = c("x", "y"))

anscombe %>% data.table::setDT() %>% 
  data.table::melt(measure.vars = list(1:4, 5:8),
                   variable.name = "id",
                   value.name = c("x", "y"))
```

```{r}
anscombe %>%
 pivot_longer(everything(),
   names_to = c(".value", "set"),
   names_pattern = "(.)(.)"
 )
```

Funciones, loops y scripting¶

Funciones, parámetros, return y scopes.

Pipes %>%

Loops: apply, for y foreach

“Loops in R Are Slow”: depende, pero no lo son si se usan bien.

Más control: if, while, repeat, beak, next, ifelse, switch, stop, try

Paralelizar loops: apply y %dopar%

Scripts, source y environments.

Operadores binarios¶

Son funciones con una sintaxis especial. Toman dos argumentos: uno se pone a la derecha y otro a la izqueirda del operador.

El ejemplo más básico es la suma con el +.

El + es un operador binario, porque toma dos argumentos, al igual que otros operadores matemáticos: la resta -, la multiplicación *, etc.

%in%¶

Por ejemplo, el operador %in% se puede usar así:

c(1,2,3,4) %in% c(1,3,5,7)

1:4 %in% c(1,3,5,7)

Noten que no hace falta usar paréntesis para pasar argumentos al operador, simplemente se escribe el primero a la izquierda (el LHS o "left hand side) y el segundo a la derecha (el RHS o "right hand side").

%>%¶

El "pipe" de magrittr, usado ampliamente en el tidyverse.

Usarlo agrega un poco de "overhead" (tiempo de ejecución).

Si estás haciendo muchas cuentas cortitas en un loop (y/o paralelizando) es mejor no usarlo. Realmente puede hacer que una tarea de esas características tarde muchísimo más, solo por incluir pipes.

R tiene su propio pipe |>: https://www.r-bloggers.com/2021/05/the-new-r-pipe/

Crear nuevos¶

Para trasladar los operadores de Python 3.9 para diccionarios | y |= a R, podemos usar listas y operadores binarios.

Ver:

Y el código queda así:

`%|%` <- function(l1, l2){
  l1[names(l2)] <- l2
  return(l1)
}

`%|=%` <- function(l1, l2){
  common.names <- names(l2)[names(l2) %in% names(l1)]
  l1[common.names] <- l2[common.names]
  return(l1)
}

lista1 <- list(hola = "HOLA", chau = "BYE", hmm = "HMM")

lista2 <- list(hola = "HOLA", chau = "CHAUCHAS", quetal = "COMO VA")

lista1
lista2
lista1 %|% lista2

lista1 %|=% lista2

Nota: esto no asigna el resultado a lista1. Se puede hacer, pero este tipo de "efectos secundarios" (los side effects) no son recomendados como práctica de programación funcional en R:

Trabajo prolijo¶

Proyectos (o cómo trabajar prolijo):

Presentando datos a tu boss:

Para generar informes podemos usar:

Rmarkdown
pimp

Rmarkdown¶

Ver página dedicada: proyectos/atr/notebook/rmarkdown

"Rmarkdown is probably the gratest document file format *ever*".

Generalidades: https://www.youtube.com/watch?v=uccEhThn0ls&list=PL5fd4SsfvECyYYiSW3ZreC5GqIq8FBocx&index=4

Usar Rmarkdown: proyectos/atr/temas-sugeridos/rmarkdown

Paquetes¶

Herramientas:

install.packages
RStudio Package Manager
Mantener una lista de versiones instaladas con Packrat
Manejar dependencias

Una increible lista de paquetes utiles:

https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages

Un libro: R Packages

Estadística y Regresión¶

Básica¶

summary
otro summary
regresión
tests
algo sobre bootstrap y ANOVA

model formulas¶

Ver: https://www.datacamp.com/community/tutorials/r-formula-tutorial

General¶

Herramientas basicas¶

lm y como usarlo con group_by y nest.
regresión logística
correlación
clustering
k-means y más k-means y una guía de clustering jerárquico
permutación a
permutación b
no-parametrica?
PCA
PCA fácil y rápido
t-SNE
Matrices de confusión para evaluar modelos de clasificación.

Bayes¶

Redes¶

igraph
Addins en rstudio
Ver gráficos acá.
Diagramas tiernos: http://blog.schochastics.net/post/sketchy-hand-drawn-like-networks-in-r/

Errores¶

Una CRAN task view que me interesa es la de "metrología": https://github.com/cran-task-views/ChemPhys/blob/main/ChemPhys.md#metrology

Tiene un par de paquetes para agregar unidades y errores a los vectores, y para propagar automáticamente ambas cosas:

errors
units
Muy bueno: https://www.r-bloggers.com/2015/01/easy-error-propagation-in-r/

Parece haber al menos dos clases de propagacion para la suma: la que suma la magnitud errores, y el usual con las derivadas parciales. Creo que el criterio para la primer clase es la del "máximo error", y el otro enfoque vendría a ser el "estadístico".

Extra¶

Procesos gaussianos y sampleo.
One-hot encoding.
Decision tree
logistic regression
Aprendizaje no supervisado.
datasaurios Causation doesn’t imply Correlation either

Extra extra¶

p-olemica:

Selection bias:

https://www.r-bloggers.com/selection-bias-death-and-dying/

Simulación de datos¶

Datos simulados con significado, especialmente para docencia

Optimización¶

Una nota de 2012.

Un review de CRAN.

Una comparación.

Optimizacion simbolica en R, con Jacobiano y Hessiano (aprox.):

Muy bueno: https://oddhypothesis.blogspot.com/2014/08/optimizing-with-r-expressions.html

Regresión no lineal y NLS¶

Ver:

Machine learning¶

Un paquete para muchos algoritmos: https://mlr.mlr-org.com/
Lo de antes pero para jugar sin codear: https://mlr-org.com/docs/2019-06-23-introducing-mlrplayground/#usage
https://blog.alpha-analysis.com/2019/08/using-svm-to-predict-mpg-for-2019.html
Ejemplo con redes neuronales
Cadenas de Markov

Torch en R¶

https://blogs.rstudio.com/ai/posts/2020-10-19-torch-image-classification/

Matemática¶

Álgebra:

linear algebra

Cálculo:

https://datascienceplus.com/calculus-in-r/

Diferenciación:

Integración:

https://www.r-bloggers.com/integration-in-r/

Hashing:

digest:digest
vdigest <- Vectorize(digest::digest)

Dinámica no lineal¶

Usé Rungge-Kutta (RK4) del paquete pracma. Tiene una función para una ecuación y otra para sistemas de ecuaciones.

Series temporales y Forecasts¶

Intro:

https://www.r-bloggers.com/introduction-to-time-series-in-r/

Time series parece ser un mundo aparte.

Stock market:

https://www.r-bloggers.com/forecasting-the-next-decade-in-the-stock-market-using-time-series-models/

Varios de R-bloggers:

Time Series in 5-Minutes, Part 1 https://www.r-bloggers.com/time-series-in-5-minutes-part-1-visualization-with-the-time-plot/
Time Series in 5-Minutes, Part 2 https://www.r-bloggers.com/time-series-in-5-minutes-part-2-autocorrelation-and-cross-correlation/
Time Series Analysis: Forecasting Sales Data with Autoregressive (AR) Models https://www.r-bloggers.com/time-series-analysis-forecasting-sales-data-with-autoregressive-ar-models/
Time series prediction with FNN-LSTM https://www.r-bloggers.com/time-series-prediction-with-fnn-lstm/
FNN-VAE for noisy time series forecasting https://www.r-bloggers.com/fnn-vae-for-noisy-time-series-forecasting/

Visualización¶

Libro: Fundamentos de dataviz.

Lo básico¶

plot()
ggplot() y qplot() en ggplot2

Extra

+ list() y %+% para modificar ggplots
ggpairs() y otros en ggally
plotly
gghighlight
grid.arrange() en gridExtra.
patchwork

Exportar figuras¶

Para generar figuras que querramos usar en Inkscape (para unposter xej), hay que exportarlas en PDF.

Eso es porque Inkscape no puede acceder al width/height en los SVG que genera R, y al importarlos se deforman.

Avanzado¶

Graficos prediseñados:

The ggpubr R package facilitates the creation of beautiful ggplot2-based graphs for researcher with non-advanced programming backgrounds.

Interactivos: plotly y chartbookr

Interactivos mas avanzados: shiny y R2D3

Discusión: tipos de gráficos para tipos de datos (ver: heatmaps, trees, facets, multiplot, ...)

Redes y grafos:

Gran post, con muchos ejemplos: https://kateto.net/network-visualization
igraph: igraph
networkly
visNetwork
ggraph
graphlouts
Easy alluvial or Sankey plots.
Multilevel networks con graphlayouts.
Ver métodos acá.

Más tipos de gráficos:

formas y polygons
likert
Nube de palabras
Calendar heatmaps
Redes sociales.
Time series y alternativa tidy.

Hacks:

Para ordenar las variables en un boxplot de ggplot, antes de graficar hay que convertir la variable de interés en factor y ordenar sus niveles a mano: datos$columna <- factor(datos$columna, levels = c("B", "C1", "D","A2","X"))

Hay decenas de sitios con listas de ejemplos:

https://www.r-graph-gallery.com/
A veces conviene hacer una búsqueda de imágenes en internet, para encontrar más rápidamente lo que buscamos.

ggplot2 notes¶

Zoom: http://rstudio-pubs-static.s3.amazonaws.com/209392_437ec4da7fa2432d831320f3591e7491.html

Imágenes¶

Magia con magick.

Reconocimiento de texto con Tesseract, videos con av: https://www.r-bloggers.com/updates-to-the-ropensci-image-suite-magick-tesseract-and-av/

Clasificacion supervisada de imagenes: https://www.r-bloggers.com/supervised-image-classification-with-imagej-and-r-in-bio7/

R remoto¶

Formas de correr R en otra compu, y ver los gráficos en la tuya:

RStudio server
remoter https://cran.r-project.org/web/packages/remoter/
rmote https://github.com/cloudyr/rmote
httpgd https://github.com/nx10/httpgd

R y Python¶

¿Qué elegir y cuándo?

Opinión para data science

Integraciones:

rPython / rpy2
Reticulate y virtualenv.
Review: lo mejor de dos mundos.
Consejos para usar ambos y cómo usar Anaconda en R.
Usar sci-kit learn desde R con Conda.

R y Biología¶

Bioconductor: R for High-Throughput (Genomic) Analysis
Clases S4 para datos ómicos
rOpenSci

¿Esta sería la parte específica?

Dash BIO¶

https://moderndata.plot.ly/introducing-dash-bio-for-r/

Enseñar R¶

Bananas https://www.r-bloggers.com/exploratory-analysis-of-a-banana/

Aplicaciones de R en Biología¶

qPCR: qpcR EasyqpcR

Microscopía: colocalización, rOpenSci, ImageJ TIFF, z-magick, rOpenSci munster

Bioinfo Strings Bio.strings GRanges ..?

Alinear: rBLAST Subread Bowtie Clustal ..?

Anotar: bioMart AnnotationDBI ..?

Bases de datos: MotifDB org.Hs.eg.db

Otros: ChIP-Seq Single-cell seq ³ Networks ..?

Citometría: flowCore openCyto

Machine Learning: Genetic Algorithms Algo simple Otro with Keras, hands-on workshop

Modelado: sysBio, smfsb

Misc cosas copadas¶

ESTADÍSTICA

The 40 data core science techniques:

Linear Regression
Logistic Regression
Jackknife Regression
Density Estimation
Confidence Interval
Test of Hypotheses
Pattern Recognition
Clustering - (aka Unsupervised Learning)
Supervised Learning
Time Series
Decision Trees
Random Numbers
Monte-Carlo Simulation
Bayesian Statistics
Naive Bayes
Principal Component Analysis - (PCA)
Ensembles Neural Networks
Support Vector Machine - (SVM)
Nearest Neighbors - (k-NN)
Feature Selection - (aka Variable Reduction)
Indexation / Cataloguing
(Geo-) Spatial Modeling
Recommendation Engine
Search Engine

R Shiny Apps¶

Shiny VS Excel¶

https://www.r-bloggers.com/forget-about-excel-use-these-r-shiny-packages-instead/

Extra Shiny¶

Shiny v1.3.2: Introducing reactlog: Visually debug your reactivity issues: https://www.r-bloggers.com/shiny-v1-3-2/
Building a Shiny App as a Package: https://www.r-bloggers.com/building-a-shiny-app-as-a-package/
Winners of the 1^st Shiny Contest: https://www.r-bloggers.com/winners-of-the-1st-shiny-contest/

https://www.r-bloggers.com/shiny-apps-need-more-info-our-new-shiny-info-package/

https://adisarid.github.io/post/2019-07-03-shiny_app_lessons/

https://www.r-bloggers.com/dynamic-ui-elements-in-shiny/

Cosas para leer¶

Links para ordenar:

Boludeces & Misc:

  Dark IDE Theme
  https://www.r-bloggers.com/super-dark-ide-theme-r-studio-inverted-color/
  https://www.r-bloggers.com/cross-platform-super-dark-ide-theme-r-studio-server/

  Using RStudio and LaTeX
  https://www.r-bloggers.com/using-rstudio-and-latex/

  Drrrawing with purrr
  https://www.r-bloggers.com/drrrawing-with-purrr/

  What it the interpretation of the diagonal for a ROC curve
  https://www.r-bloggers.com/what-it-the-interpretation-of-the-diagonal-for-a-roc-curve/

  R and labelled data: Using quasiquotation to add variable and value labels #rstats
  https://www.r-bloggers.com/r-and-labelled-data-using-quasiquotation-to-add-variable-and-value-labels-rstats/

El Infierno de R¶

Errores¶

Instalar un paquete: "Warning in file.append"¶

E> Warning in file.append(to[okay], from[okay]) :
E>   write error during file append

Posiblemente no haya espacio en el disco: https://github.com/rstudio/packrat/issues/410

Casos de ejemplo¶

Algunos ejemplos de análisis hechos en R.

Debates democráticos y Bigram¶

https://www.r-bloggers.com/bigram-analysis-of-democratic-debates/

Twitter¶

https://www.r-bloggers.com/twitter-account-analysis-in-r/

Política en Wikipedia¶

https://www.r-bloggers.com/studying-politics-on-and-with-wikipedia/

R Notebook¶

Cheatsheets¶

Notas de desarrollo de paquetes en R¶

IDEs para R¶

RStudio¶

VSCode¶

Lenguaje¶

Ayuda¶

Base¶

Avanzado¶

Paralelización y HPC¶

Cursed R¶

Datos: Tipos y Estructuras¶

Manipulación de tablas y datos¶

Multiple column melt / pivot_longer¶

Funciones, loops y scripting¶

Operadores binarios¶

%in%¶

%>%¶

Crear nuevos¶

Trabajo prolijo¶

Rmarkdown¶

Paquetes¶

Estadística y Regresión¶

Básica¶

model formulas¶

General¶

Herramientas basicas¶

Bayes¶

Redes¶

Errores¶

Extra¶

Extra extra¶

Simulación de datos¶

Optimización¶

Regresión no lineal y NLS¶

Machine learning¶

Torch en R¶

Matemática¶

Dinámica no lineal¶

Series temporales y Forecasts¶

Visualización¶

Lo básico¶

Tablas lindas¶

Paletas de colores¶

Graficos circulares¶

Exportar figuras¶

Avanzado¶

ggplot2 notes¶

Imágenes¶

R remoto¶

R y Python¶

R y Biología¶

Dash BIO¶

Enseñar R¶

Aplicaciones de R en Biología¶

Misc cosas copadas¶

R Shiny Apps¶

Shiny VS Excel¶

Extra Shiny¶

Cosas para leer¶

El Infierno de R¶

Errores¶

Instalar un paquete: "Warning in file.append"¶

Casos de ejemplo¶

Debates democráticos y Bigram¶

Twitter¶

Política en Wikipedia¶