Carlos Arturo Castro del Ángel

Resumen
Se pretende medir el panorama y la actuación de los 250 canales más populares de Youtube México para el mes de junio de 2018. Para tal efecto, se utiliza un análisis exploratorio de datos, así como un modelo dinámico de regresión simple para analizar el desempeño de dichos canales. Se constata que las vistas y las subscripciones realizadas a un canal son un elemento clave para la generación de más ingresos monetarios. De igual modo queda claro que la sola presentación de los resultados queda limitada para entender el objeto de estudio, por esta razón es necesario buscar una vía que facilite la exploración e interacción de los datos, razón por la cual se lleva a cabo la presente investigación.

Palabras claves
Youtuber, monetización, R, Shiny, canales, ingresos, regresión, social, vistas, subscripciones.

Introducción

Youtube es una plataforma web que en sus inicios tenía el objetivo de compartir videos a pequeñas audiencias. Con el paso de los años, este sitio pasó de ser una pequeña galería de recursos audiovisuales a un negocio multimillonario que incorpora cada vez más a personas influyentes (youtubers) dispuestos a generar capital económico a través de la publicación de videos.

De acuerdo con el Oxford English Dictionary, se define youtuber como: “Una persona que carga, produce o aparece en videos en el sitio web YouTube”. Este concepto permite entender una nueva ocupación que genera poco a poco más interés a personas que buscan obtener un ingreso extra o incluso una profesión orientada a la generación de contenidos.

A partir de 2011, Youtube lanzó su programa de socios que a la actualidad ha evolucionado en una estructura que permite que los creadores de videos moneticen su contenido publicándolo en YouTube. Este programa primordialmente se basa en la ganancia de dinero mediante anuncios que se publican antes o durante la reproducción de un video en Youtube.

El presente estudio busca analiza que factores son relevantes para que un canal de Youtube monetice en mayor o menor medida con base a los registros publicados dentro de la plataforma Social Blade (httpss://socialblade.com/) para el día 28 de junio de 2018, así como una aplicación interactiva con la cual se puede calcular los ingresos posibles de un canal de Youtube que ingrese al Top 250 de los más vistos en México.

Extracción y modelado de datos de Social Blade

Imagen 1: Página web Social Blade (httpss://socialblade.com/youtube/top/country/mx/mostviewed)

Como primer paso a realizar dentro del análisis exploratorio, mediante el lenguaje de programación R (httpss://www.r-project.org/), se extraerá la información de la liga httpss://socialblade.com/youtube/top/country/mx/mostviewed, la cual contiene los 250 canales más vistos en México. Para la técnica de extracción web se ocupará la librería “rvest” mediante el
siguiente código:

library(rvest)

library(dplyr)

library(stringr)

De igual modo van a ser necesarias las librerías “dplyr” y “stringr” para el acomodo de la información extraída y tener un código más fácil de manipular.

stct <- read_html(“httpss://socialblade.com/youtube/top/country/mx/mostviewed”) %>%
html_nodes(“a”) %>%

html_attr(‘href’)

stct <- stct[154:403]

links <- paste0(“httpss://socialblade.com”, stct, sep=”)

De la línea de código read_html se obtiene los subdirectorios dentro de los elementos “a”, los cuales son cada una de las páginas que albergan la información de interés a analizar de los 250 canales más populares de Youtube México. A continuación, se concatenan los resultados con la liga primaria de la página, es decir, el “httpss://socialblade.com” mediante la línea de código paste0.

for (i in 1:length(links)) {

uploads <- read_html(links[i]) %>%

html_nodes(“#YouTubeUserTopInfoBlock .YouTubeUserTopInfo span#youtube-stats-header-
uploads”) %>% html_text()

type <- read_html(links[i]) %>%

html_nodes(“#YouTubeUserTopInfoBlock .YouTubeUserTopInfo span#youtube-stats-header-
channeltype”) %>% html_text()

name <- read_html(links[i]) %>%

html_nodes(“#YouTubeUserTopInfoBlockTop h1”) %>% html_text()
viewsmonthly <- read_html(links[i]) %>%
html_nodes(“span#afd-header-views-30d”) %>% html_text() %>%

str_replace_all(“,”, “”) %>% as.numeric()
subsmonthly <- read_html(links[i]) %>%
html_nodes(“span#afd-header-subs-30d”) %>% html_text() %>%
str_replace_all(“,”, “”) %>% as.numeric()

monthearn <- read_html(links[i]) %>%

html_nodes(xpath = “/html/body/div[15]/div[2]/div[1]/div[2]/div[3]/div[1]/p[1]”) %>%

html_text()

date <- read_html(links[i]) %>%

html_nodes(xpath = “//*[@id=’YouTubeUserTopInfoBlock’]/div[7]/span[2]”) %>%

html_text()

x <- data.frame(uploads = as.numeric(uploads), type, name, viewsmonthly, subsmonthly,
monthearn, date, stct[i])
assign(paste(“youtuber”, i, sep = “”), x)

}

db <- do.call(rbind, mget(ls(pattern=”youtuber”)))

Por último, se ejecuta una instrucción repetitiva de donde a partir del objeto “links” anteriormente generado, se extrae de manera automática la información de videos subidos (uploads), tipo de canal (type), nombre del canal (name), vistas mensuales (viewsmonthly), subscripciones mensuales (subsmonthly), rango de ingreso mensual obtenido (monthearn) y fecha de apertura del canal (date), con la cual se realizará el análisis exploratorio y el modelo predictivo. Mediante la instrucción do.call, se concentra en una sola tabla toda la información obtenida.

Una vez realizada la extracción de información, se da paso a la limpieza de los datos obtenidos
mediante el siguiente código:

db$monthearn <- gsub(“\\$”, “”, db$monthearn)

db$anualearn <- gsub(“\\$”, “”, db$anualearn)

db$monthearn_1 <- sapply(strsplit(as.character(db$monthearn),’ – ‘), “[“, 1)

db$monthearn_2 <- sapply(strsplit(as.character(db$monthearn),’ – ‘), “[“, 2)

db$monthearn <- NULL

La instrucción gsub borra el carácter $, mientras que sapply combinado con strsplit separa el rango del ingreso mensual obtenido en dos columnas, una con el valor mínimo y otra con el máximo.

db$monthearn_1 <- sub(“K”, “e3”, db$monthearn_1, fixed = TRUE)

db$monthearn_1 <- sub(“M”, “e6”, db$monthearn_1, fixed = TRUE)

db$monthearn_2 <- sub(“K”, “e3”, db$monthearn_2, fixed = TRUE)

db$monthearn_2 <- sub(“M”, “e6”, db$monthearn_2, fixed = TRUE)

db[,11:14] <- lapply(db[,11:14], as.numeric)

db$date <- as.numeric(gsub(“.*,”, “”, db$date))

De igual modo se transforman mediante la instrucción sub sumada a lapply as.numeric, las
expresiones alfanuméricas vinculadas con las letras K y M, con sus equivalentes numéricos
expresados en miles y millones respectivamente. Por último, se transforma la fecha extraída en el
año en el cual se abrió el canal mediante un gsub.
A partir de la ejecución de las líneas de código anteriores se obtiene la base de datos con la que se
realiza el análisis exploratorio y el modelo dinámico predictivo contenido en el siguiente apartado.

Análisis exploratorio de datos con R: Radiografía de Youtube México

Una vez obtenidos los datos a analizar, se procede a llamar a la librería ggplot2 con el objetivo de
plasmar de manera gráfica, posibles patrones de actividad que permitan diferenciar que canales
monetizan más que otros.

En primera instancia se puede distinguir que los canales relacionados con el entretenimiento y
música predominan dentro del Top 250 de canales con más vistas, al representar un 52% del total.
Del mismo modo, los canales que se iniciaron a partir del año que se lanzó el programa de socios,
son los que imperan en el Top, siendo un 53.6% los que pertenecen al ciclo 2011-2014.

Gráfico 1: Conteo de canales de Youtube más vistos por tipo de contenido. Elaboración propia con datos de Social Blade.

Gráfico 2: Conteo de canales de Youtube más vistos por año de apertura. Elaboración propia con datos de Social Blade.

Estos gráficos dan una visión preliminar sobre algunos elementos que son importantes considerar para tener un canal popular de Youtube en México, es decir, el contar con contenido relacionado con entretenimiento y además trabajar de manera constante por algunos años, son clave para tener presencia y reconocimiento en esta plataforma.

No obstante, la intención principal del estudio es determinar qué factores son relevantes para obtener una mayor monetización en Youtube, por lo cual se vincularán los factores ubicados previamente en los gráficos con los niveles de capital económico generado. Hablar de ingresos en Youtube es hablar de dos indicadores importantes, por un lado, el número de reproducciones que genera un canal, y por el otro, el número de subscriptores que tiene el mismo, entendido como la presencia que un Youtuber ejerce sobre las opciones de reproducción más directas a elegir por parte de los visitantes del sitio. Es necesario agregar que los datos de ingresos son expresados en término de dólares y son un aproximado calculado por la página Social Blade.

Gráfico 3: Monetización promedio por tipo de canal. Elaboración propia con datos de Social Blade.

Con base al grafico anterior, la primera aproximación sobre el tipo de canal resulta ser incierta ya que los canales enfocados a la educación reportan mayores ingresos frente a los demás. Ante este cambio de supuesto, es necesario combinar tipo de canal, año e ingreso para obtener los 5 conjuntos de mayor capitalización.

Tabla 1: Ingresos promedio mínimos y máximos por tipo de canal y año de apertura. Elaboración propia con datos de Social Blade.

Ante este nuevo resultado, se puede asumir que los canales que son de entretenimiento, educación y música que además fueron inaugurados en los años 2013, 2014 y 2015 son los que resultan tener mayores ingresos mensuales, dando por hecho que las primeras aproximaciones definidas anteriormente, explican de manera parcial la realidad sobre el desempeño económico obtenido por el Top 250 de Canales de Youtube México. Cabe resaltar que ante la complejidad de ir analizando y relacionando cada una de las variables que pudiesen aportar y/o perjudicar el capital económico obtenido por los canales, una opción viable para concentrar el panorama general es a través de un modelo de regresión lineal simple, que permita la interacción entre indicadores de manera equilibrada.

Modelo de regresión lineal dinámico con Shiny

Se entiende por modelo de regresión lineal simple a “un modelo matemático que busca determinar la relación entre una variable dependiente (Y) con respecto a otras variables llamadas explicativas o independientes (X)” (Economipedia, 2018).

Para este análisis la variable dependiente son los ingresos percibidos por los canales de Youtube, mientras que, las variables explicativas son todas aquellas que puedan influir de manera positiva y/o negativa a la generación de capital económico de los mismos.

Anteriormente en esta investigación, dentro del proceso de extracción de información, se había obtenido los datos de videos subidos (uploads), tipo de canal (type), nombre del canal (name), vistas mensuales (viewsmonthly), subscripciones mensuales (subsmonthly), rango de ingreso mensual obtenido (monthearn) y fecha de apertura del canal (date), de los cuales se define la siguiente formula:

tit_glm <- lm(monthearn ~ viewsmonthly + uploads + subsmonthly + type + date, data = data)

A partir de esta fórmula se consigue el valor de los coeficientes que describen los valores máximos y mínimos obtenidos por los canales de Youtube. No obstante, el tener estos valores y el que se presenten en la investigación, sería el mismo problema visto párrafos atrás: el análisis individual de la influencia de variables y el predecir algunas veces el modelo formulado, no permiten representar y explorar la realidad del objeto de estudio, por lo cual, con el apoyo de la librería “shiny”, se busca abordar el problema de una manera más eficaz.

De manera simple, se describe a la librería “shiny” como un creador de entornos web a partir del lenguaje de programación R. Esta paquetería permite al usuario, además de crear sitios en línea, integrar código de R que puede ser ejecutado dependiendo de las necesidades de análisis del usuario. Ya que la herramienta web está lista, se es cargada en el servidor shinyapps (httpss://www.shinyapps.io/) para su uso público. Una vez explicado lo anterior, la liga de acceso a la shiny es la siguiente:

httpss://charlycastro.shinyapps.io/socialblade/

Imagen 2: Shiny App (httpss://charlycastro.shinyapps.io/socialblade/)

La herramienta web cuenta con dos apartados:

• Del lado izquierdo una barra lateral con los indicadores ajustables al interés del usuario.

• Del lado derecho un apartado de resultados dinámicos a los parámetros definidos en la
barra lateral.

El uso de la plataforma es muy intuitivo por lo cual se recomienda al usuario el disponer de ella de manera recurrente, con el fin de entender su funcionamiento por medio de la experiencia. A manera de resumen, con base a la interacción con la aplicación, se puede afirmar que:

1. Como era de esperarse, los aumentos en el número de vistas y suscripciones contribuyeron al aumento de ingresos percibidos.

2. Los canales con una antigüedad de al menos 3 años generan una mayor monetización que los recientes.

3. En promedio, los canales relacionados con la música, el entretenimiento, educación y personas es más redituable que los demás.

4. La monetización tiene una relación negativa con el número de videos subidos, lo cual explica el creciente interés por la “viralización de videos”.

Conclusiones

Una de las aportaciones del trabajo, radica en la importancia de aportar dinamismo al análisis de un problema de investigación, ya que esto brinda la capacidad de que los lectores se vuelvan usuarios de la metodología de análisis mediante la definición de sus parámetros de interés a estudiar. Para el caso de los parámetros extraídos de número de vistas y suscripciones, resultan ser los que tienen mayor peso para determinar una probable ganancia monetario del trabajo de Youtuber. No obstante, el usuario de la aplicación puede ocupar esta para trazar una estrategia de acción que le posibilite elegir la mejor alternativa de contenido a generar, así como determinar el tiempo que le llevara afianzarse dentro de su segmento, para generar ingresos atractivos.

Como recomendación a futuros trabajos, se precisa un estudio más exhaustivo de nivel latinoamerica o internacional para determinar si el país influye un el nivel de monetización obtenida. De manera particular, la incorporación de gráficos dinámicos descriptivos son elementos deseables para complementar el estudio. El análisis dinámico debe de ser un elemento metodológico cada vez más presente, por lo cual el lenguaje de programación R, sus librerías y de manera particular, Shiny, brindan la posibilidad de estudios más interactivos y enriquecedores para el público general.

Bibliografía

OxfordDictionaries.com. Definición de un Youtuber.
httpss://en.oxforddictionaries.com/definition/youtuber
Descripción general del Programa de socios de YouTube.
httpss://support.google.com/youtube/answer/72851?hl=es-419

Modelo de Regresión Simple, Economipedia. https://economipedia.com/definiciones/modelo-de-
regresion.html

R: The R Project for Statistical Computing. httpss://www.r-project.org/
Shiny. httpss://shiny.rstudio.com/
rvest – CRAN-R. httpss://cran.r-project.org/web/packages/rvest/rvest.pdf

Introduction to stringr – CRAN-R. httpss://cran.r-
project.org/web/packages/stringr/vignettes/stringr.html

A Grammar of Data Manipulation • dplyr. httpss://dplyr.tidyverse.org/
ggplot2 – Tidyverse. httpss://ggplot2.tidyverse.org/

1 Comentario

Franco Quintanilla el octubre 24, 2019 a las 7:26 pm

Hola, soy nuevo en esta página.
acabo de leer este articulo y me gusto mucho sobre cómo metieron el tema de la ciencia de datos con el tema de Youtube. Se me hace muy interesante este tema.
también en la parte de los ingresos de las personas que generan contenido para la página ya que yo desconocía de este tema en concreto y en cómo aplicarlo a la vida.
Muchas gracias.
Responder

CIENCIA DE DATOS APLICADA AL DESEMPEÑO GENERAL DE LOS 250 CANALES MÁS POPULARES DE YOUTUBE MÉXICO

1 Comentario

Enviar comentario Cancelar la respuesta