Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN

LIBRERÍA IZTACCIHUATL

ANA EMILIA LOPEZ VARGAS

TECNOLOGICO DE MONTERREY

JULIO DE 2022
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN
LIBRERÍA IZTACCIHUATL

1. ENTENDIMIENTO DEL NEGOCIO - INTRODUCCIÓN

La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido


desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de
desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.

2.1 Recolección Inicial de datos

La librería proporcionó cuatro bases de datos que contienen información de sus clientes,
libros, autores, entre otros.
La base de datos “books.xls”, corresponde a una muestra aleatoria simple de los clientes
de la librería y está compuesta por 13 variables y 10.000 registros. La base de datos
“ratings.csv”, posee 3 variables y 981.756 registros. La base de datos “to_read.xls” contiene
912.705 registros con 2 columnas, y por último, la base de datos “top_books.xls”, posee 14
variables y 120 registros.

2.2 Descripción de los datos

El archivo “books” contiene los siguientes datos:

• Id - Identificador del registro

• Book Id - Identificador del libro

• Number Editions - Número de ediciones

• ISBN - Clave estándar internacional del libro

• ISBN13 - Clave estándar extendida internacional del libro

• Authors - Autor del libro

• Original Publication - Fecha de publicación

• Original Title - Título original del libro

• Title - Título del libro


• Language Code - Clave de idioma del libro

• Average Rating - Promedio de la clasificación del libro

• Image - Enlace a la imagen de la portada del libro

• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.

El archivo “top_books” contiene los siguientes datos:

• Position - Posición del libro en la clasificación del libro

• ISBN - Clave estándar extendida internacional del libro

• Title - Título del libro

• Author - Autor del libro

• Imprint - Editorial

• Publisher Group - Grupo Editorial

• Volume - Volumen de ventas hasta el 2010

• Value - Ventas determinadas por el volumen

• RRP - Precio recomendado para minoristas

• ASP - Precio promedio para venta

• Binding - Tipo de encuadernación

• Publ Date - Fecha de publicación

• Product Class - Clasificación del libro

• Classification - Clasificación General del libro

El archivo “ratings” contiene los siguientes datos:

• Book Id - Identificador del libro

• User Id - Identificador del cliente/usuario que clasifico un libro


• Rating - Nivel de clasificación del libro.

El archivo “to_read” contiene los siguientes datos:

• User Id - Identificador del cliente/usuario que clasifico un libro

• Book Id - Identificador del libro

El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones
y compras del cliente.

El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.

El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.

El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.

2. PREGUNTAS

• ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis
de datos de la Librería Iztaccihuatl?

Emplearía Python o R. Dado que son lenguajes de programación de código abierto que
brindan las librerías para realizar modelos predictivos.

• ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?

a) Predicción por modelo de regresión lineal de las ventas del próximo año
(precio promedio recomendado y monto de las ventas del próximo año)
b) Predicción por medio de un modelo de árbol de decisión de cuáles sería la
clasificación de libros más relevantes para las próximas ventas
c) Predicción por redes neuronales del número de ediciones que se generarán
próximamente en los diferentes tipos de libros.
• ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder
realizar un análisis predictivo?

Se proponen las siguientes transformaciones para los archivos:

• Books

Presenta el problema de que muchas celdas (5979) poseen la información anidada


y se requiere reordenar el dataframe.

Imagen 1. Muestra de la tabla books, la cual posee 5979 líneas donde los registros están anidados.

• Para optimizar el análisis, se deben integrar varias tablas, de manera que se pueda
aprovechar la información en una única vista minable.

• ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?

Emplearía una base de datos ROLAP (Base de datos relacional) como SQL server, dado
que se trata de datos estructurados, sujetos a operaciones analíticas como roll-up, drill-
down, slice, entre otros.

• ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?

Emplearía Git Hub para administrar en la nube las diferentes versiones con el equipo de
trabajo. Además, al ser de código abierto, no requiere alta inversión. Incluso, podría
trabajarse con Google Colab.
3. CONCLUSIONES

El proyecto de la Librería Iztaccihuatl es relativamente sencillo, siempre y cuando se realice


un buen proceso de transformación de los datos. Se requiere tomar decisiones sobre el
tratamiento de datos nulos y determinar con el experto del negocio, cuál sería el análisis
que mayor valor le aporte a sus objetivos (KPI´s). De acuerdo con ello, realizar los modelos
y colocarlos en funcionamiento.

También podría gustarte