Técnicas de Data Sience para la caracterización del rendimiento de las noticias online

Brugarolas Sobejano, Guillermo; Brugarolas Sobejano, Guillermo

Fecha de publicación

2020

URI http://hdl.handle.net/20.500.14342/2799

Resumen

More and more, readers are turning to digital or online media for information. These have largely replaced the traditional press. Those responsible for managing and editing online newspapers, blogs and other content outlets are aware of the importance of maintaining their regular base readership. In recent years, different web data analytics and machine learning techniques have been used in these businesses to obtain useful information from the vast amount of available data on their article and news pages. This information can be in the form of pattern identification, characterization of the news articles according to different parameters, or the ability to predict their performance. This information is useful if it is used as a support tool the making of editorial and organizational decisions by the online media management staff. This project is a broad and relatively high-level study on different predictive modelling and machine learning techniques that can be applied on a dataset that contains raw data about the pages of an online radio and news portal, with the aim of obtaining that previously mentioned useful information. The dataset has been obtained from a web analytics tool that periodically collects the value of different attributes of each article or news page of the web portal. The first practical part of this project consists of the application of statistical modelling and clustering techniques on the data set. In the first place, different statistical models are applied, widely used in the theory of diffusion of innovations and of adoption of novelties by society, to characterize the curve of visits to news articles. Secondly, some clustering algorithms, which are unsupervised machine learning techniques, are employed to find different ways to categorize and classify the online news articles based on their performance parameters and initial characteristics. The second practical part of the project consists of applying the different capabilities of the well-known XGBoost library to predict the performance parameters of online news articles based on their initial characteristics. This project approximates the different possibilities that data science has applied to human behaviour, such as the visit of a user to a news page in a digital medium. The ability to extract useful information from it will depend on the techniques applied and on the data set.

Cada vez más, los lectores acceden a medios digitales o en línea para informarse. Estos han ido sustituyendo en gran medida a la prensa tradicional. Los responsables de la dirección y edición de diarios, blogs y demás portales online son conscientes de la importancia de mantener su base de lectores más o menos regulares. En los últimos años, se vienen utilizando en estos negocios diferentes técnicas de analítica de datos web y de aprendizaje automático para obtener información útil a partir de la ingente cantidad de datos almacenados sobre sus páginas de artículos y noticias. Esta información puede ser en forma de identificación de patrones, caracterización de los artículos según diferentes parámetros, o de capacidad de predicción del rendimiento de estos. Esta información es útil si se utiliza como herramienta de soporte en la toma de decisiones editoriales y organizativas por parte de la dirección del medio o diario en línea. Este proyecto es un estudio amplio y de relativo alto nivel sobre diferentes técnicas de modelado predictivo y de aprendizaje automático que se pueden aplicar sobre los datos de las páginas de un portal de radio y noticias en línea, con el objetivo de obtener esa información útil anteriormente mencionada. El conjunto de datos se ha obtenido de una herramienta de analítica web que recoge periódicamente el valor de diferentes atributos de cada página de artículo o noticia del portal web. La primera parte práctica de este proyecto consiste en la aplicación de técnicas de modelado estadístico y de agrupamiento sobre el conjunto de datos. En primer lugar, se aplican diferentes modelos estadísticos, muy utilizados en teoría de difusión de innovaciones y de adopción de novedades por la sociedad, para caracterizar la curva de visitas a los artículos/noticias web. En segundo lugar, se emplean algoritmos de agrupamiento, que es una técnica de aprendizaje automático no supervisado, para encontrar diferentes maneras de categorizar y clasificar los artículos/noticias web, en función de sus parámetros de rendimiento y de sus características iniciales. La segunda parte práctica del proyecto consiste en la aplicación de las diferentes capacidades de la reconocida librería XGBoost para predecir los parámetros de rendimiento de los artículos/noticias web en función de sus características iniciales. Este proyecto es una aproximación de las diferentes posibilidades que tiene la ciencia de datos aplicada al comportamiento humano, como es la visita de un usuario a la página de una noticia de un medio digital. La capacidad de extraer información útil de ello dependerá de las técnicas aplicadas y también del conjunto de datos.

Cada vegada més, els lectors accedeixen a mitjans digitals o en línia per a informarse. Aquests han anat substituint en gran mesura a la premsa tradicional. Els responsables de la direcció i edició de diaris, blogs i altres portals online són conscients de la importància de mantenir la seva base de lectors més o menys regulars. En els últims anys, es venen utilitzant en aquests negocis diferents tècniques d'analítica de dades web i d'aprenentatge automàtic per obtenir informació útil a partir de la ingent quantitat de dades emmagatzemades sobre les seves pàgines d'articles i notícies. Aquesta informació pot ser en forma d'identificació de patrons, caracterització dels articles segons diferents paràmetres, o de capacitat de predicció de el rendiment d'aquests. Aquesta informació és útil si s'utilitza com a eina de suport en la presa de decisions editorials i organitzatives per part de la direcció del mitjà o diari en línia. Aquest projecte és un estudi ampli i de relatiu alt nivell sobre diferents tècniques de modelatge predictiu i d'aprenentatge automàtic que es poden aplicar sobre les dades de les pàgines d'un portal de ràdio i notícies en línia, amb l'objectiu d'obtenir aquesta informació útil anteriorment esmentada. El conjunt de dades s'ha obtingut d'una eina d'analítica web que recull periòdicament el valor de diferents atributs de cada pàgina d'article o notícia del portal web. La primera part pràctica d'aquest projecte consisteix en l'aplicació de tècniques de modelatge estadístic i d'agrupament sobre el conjunt de dades. En primer lloc, s'apliquen diferents models estadístics, molt utilitzats en teoria de difusió d'innovacions i d'adopció de novetats per la societat, per caracteritzar la corba de visites als articles/notícies web. En segon lloc, s'utilitzen algoritmes d'agrupament, que és una tècnica d'aprenentatge automàtic no supervisat, per a trobar diferents maneres de categoritzar i classificar els articles/notícies web, en funció dels seus paràmetres de rendiment i de les seves característiques inicials. La segona part pràctica de el projecte consisteix en l'aplicació de les diferents capacitats de la reconeguda llibreria XGBoost per a predir els paràmetres de rendiment dels articles/notícies web en funció de les seves característiques inicials. Aquest projecte és una aproximació de les diferents possibilitats que té la ciència de dades aplicada al comportament humà, com és la visita d'un usuari a la pàgina d'una notícia d'un mitjà digital. La capacitat d'extreure informació útil d'això dependrà de les tècniques aplicades i també del conjunt de dades.

Tipo de documento

Trabajo fin de máster

Lengua

Castellano

Materias (CDU)

004 - Informática

62 - Ingeniería. Tecnología

Palabras clave

Aprenentatge automàtic -- TFM

Páginas

107 p.

Colección

ENG TFM MUET; 2648

Citación recomendada

Esta citación se ha generado automáticamente.

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs finals de màster [190]

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Excepto si se señala otra cosa, la licencia del ítem se describe como http://creativecommons.org/licenses/by-nc-nd/4.0/