Técnicas de Data Sience para la caracterización del rendimiento de las noticias online
View/Open
Other authors
Publication date
2020Abstract
More and more, readers are turning to digital or online media for information. These
have largely replaced the traditional press. Those responsible for managing and editing
online newspapers, blogs and other content outlets are aware of the importance of
maintaining their regular base readership. In recent years, different web data analytics
and machine learning techniques have been used in these businesses to obtain useful
information from the vast amount of available data on their article and news pages.
This information can be in the form of pattern identification, characterization of the
news articles according to different parameters, or the ability to predict their
performance. This information is useful if it is used as a support tool the making of
editorial and organizational decisions by the online media management staff.
This project is a broad and relatively high-level study on different predictive modelling
and machine learning techniques that can be applied on a dataset that contains raw
data about the pages of an online radio and news portal, with the aim of obtaining that
previously mentioned useful information. The dataset has been obtained from a web
analytics tool that periodically collects the value of different attributes of each article or
news page of the web portal.
The first practical part of this project consists of the application of statistical modelling
and clustering techniques on the data set. In the first place, different statistical models
are applied, widely used in the theory of diffusion of innovations and of adoption of
novelties by society, to characterize the curve of visits to news articles. Secondly, some
clustering algorithms, which are unsupervised machine learning techniques, are
employed to find different ways to categorize and classify the online news articles
based on their performance parameters and initial characteristics.
The second practical part of the project consists of applying the different capabilities of
the well-known XGBoost library to predict the performance parameters of online news
articles based on their initial characteristics.
This project approximates the different possibilities that data science has applied to
human behaviour, such as the visit of a user to a news page in a digital medium. The
ability to extract useful information from it will depend on the techniques applied and on
the data set.
Cada vez más, los lectores acceden a medios digitales o en línea para informarse.
Estos han ido sustituyendo en gran medida a la prensa tradicional. Los responsables
de la dirección y edición de diarios, blogs y demás portales online son conscientes de
la importancia de mantener su base de lectores más o menos regulares. En los últimos
años, se vienen utilizando en estos negocios diferentes técnicas de analítica de datos
web y de aprendizaje automático para obtener información útil a partir de la ingente
cantidad de datos almacenados sobre sus páginas de artículos y noticias. Esta
información puede ser en forma de identificación de patrones, caracterización de los
artículos según diferentes parámetros, o de capacidad de predicción del rendimiento
de estos. Esta información es útil si se utiliza como herramienta de soporte en la toma
de decisiones editoriales y organizativas por parte de la dirección del medio o diario en
línea.
Este proyecto es un estudio amplio y de relativo alto nivel sobre diferentes técnicas de
modelado predictivo y de aprendizaje automático que se pueden aplicar sobre los
datos de las páginas de un portal de radio y noticias en línea, con el objetivo de
obtener esa información útil anteriormente mencionada. El conjunto de datos se ha
obtenido de una herramienta de analítica web que recoge periódicamente el valor de
diferentes atributos de cada página de artículo o noticia del portal web.
La primera parte práctica de este proyecto consiste en la aplicación de técnicas de
modelado estadístico y de agrupamiento sobre el conjunto de datos. En primer lugar,
se aplican diferentes modelos estadísticos, muy utilizados en teoría de difusión de
innovaciones y de adopción de novedades por la sociedad, para caracterizar la curva
de visitas a los artículos/noticias web. En segundo lugar, se emplean algoritmos de
agrupamiento, que es una técnica de aprendizaje automático no supervisado, para
encontrar diferentes maneras de categorizar y clasificar los artículos/noticias web, en
función de sus parámetros de rendimiento y de sus características iniciales.
La segunda parte práctica del proyecto consiste en la aplicación de las diferentes
capacidades de la reconocida librería XGBoost para predecir los parámetros de
rendimiento de los artículos/noticias web en función de sus características iniciales.
Este proyecto es una aproximación de las diferentes posibilidades que tiene la ciencia
de datos aplicada al comportamiento humano, como es la visita de un usuario a la
página de una noticia de un medio digital. La capacidad de extraer información útil de
ello dependerá de las técnicas aplicadas y también del conjunto de datos.
Cada vegada més, els lectors accedeixen a mitjans digitals o en línia per a informarse. Aquests han anat substituint en gran mesura a la premsa tradicional. Els
responsables de la direcció i edició de diaris, blogs i altres portals online són
conscients de la importància de mantenir la seva base de lectors més o menys
regulars. En els últims anys, es venen utilitzant en aquests negocis diferents tècniques
d'analítica de dades web i d'aprenentatge automàtic per obtenir informació útil a partir
de la ingent quantitat de dades emmagatzemades sobre les seves pàgines d'articles i
notícies. Aquesta informació pot ser en forma d'identificació de patrons, caracterització
dels articles segons diferents paràmetres, o de capacitat de predicció de el rendiment
d'aquests. Aquesta informació és útil si s'utilitza com a eina de suport en la presa de
decisions editorials i organitzatives per part de la direcció del mitjà o diari en línia.
Aquest projecte és un estudi ampli i de relatiu alt nivell sobre diferents tècniques de
modelatge predictiu i d'aprenentatge automàtic que es poden aplicar sobre les dades
de les pàgines d'un portal de ràdio i notícies en línia, amb l'objectiu d'obtenir aquesta
informació útil anteriorment esmentada. El conjunt de dades s'ha obtingut d'una eina
d'analítica web que recull periòdicament el valor de diferents atributs de cada pàgina
d'article o notícia del portal web.
La primera part pràctica d'aquest projecte consisteix en l'aplicació de tècniques de
modelatge estadístic i d'agrupament sobre el conjunt de dades. En primer lloc,
s'apliquen diferents models estadístics, molt utilitzats en teoria de difusió d'innovacions
i d'adopció de novetats per la societat, per caracteritzar la corba de visites als
articles/notícies web. En segon lloc, s'utilitzen algoritmes d'agrupament, que és una
tècnica d'aprenentatge automàtic no supervisat, per a trobar diferents maneres de
categoritzar i classificar els articles/notícies web, en funció dels seus paràmetres de
rendiment i de les seves característiques inicials.
La segona part pràctica de el projecte consisteix en l'aplicació de les diferents
capacitats de la reconeguda llibreria XGBoost per a predir els paràmetres de
rendiment dels articles/notícies web en funció de les seves característiques inicials.
Aquest projecte és una aproximació de les diferents possibilitats que té la ciència de
dades aplicada al comportament humà, com és la visita d'un usuari a la pàgina d'una
notícia d'un mitjà digital. La capacitat d'extreure informació útil d'això dependrà de les
tècniques aplicades i també del conjunt de dades.
Document Type
Master's final project
Language
Spanish
Subject (CDU)
004 - Computer science and technology. Computing. Data processing
62 - Engineering. Technology in general
Keywords
Aprenentatge automàtic -- TFM
Pages
107 p.
Collection
ENG TFM MUET; 2648
This item appears in the following Collection(s)
Rights
© Escola Tècnica Superior d'Enginyeria La Salle
Except where otherwise noted, this item's license is described as http://creativecommons.org/licenses/by-nc-nd/4.0/