Entregable Ana Lopez - Librería

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN
LIBRERÍA IZTACCIHUATL
ANA EMILIA LOPEZ VARGAS
TECNOLOGICO DE MONTERREY
JULIO DE 2022
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN
LIBRERÍA IZTACCIHUATL
1. ENTENDIMIENTO DEL NEGOCIO - INTRODUCCIÓN
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido

desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de
desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
2.1 Recolección Inicial de datos
La librería proporcionó cuatro bases de datos que contienen información de sus clientes,
libros, autores, entre otros.
La base de datos “books.xls”, corresponde a una muestra aleatoria simple de los clientes
de la librería y está compuesta por 13 variables y 10.000 registros. La base de datos
“ratings.csv”, posee 3 variables y 981.756 registros. La base de datos “to_read.xls” contiene
912.705 registros con 2 columnas, y por último, la base de datos “top_books.xls”, posee 14
variables y 120 registros.
2.2 Descripción de los datos
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro

• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro

• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones
y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.
2. PREGUNTAS
• ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis
de datos de la Librería Iztaccihuatl?
Emplearía Python o R. Dado que son lenguajes de programación de código abierto que
brindan las librerías para realizar modelos predictivos.
• ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
a) Predicción por modelo de regresión lineal de las ventas del próximo año
(precio promedio recomendado y monto de las ventas del próximo año)
b) Predicción por medio de un modelo de árbol de decisión de cuáles sería la
clasificación de libros más relevantes para las próximas ventas
c) Predicción por redes neuronales del número de ediciones que se generarán
próximamente en los diferentes tipos de libros.
• ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder
realizar un análisis predictivo?
Se proponen las siguientes transformaciones para los archivos:
• Books
Presenta el problema de que muchas celdas (5979) poseen la información anidada

y se requiere reordenar el dataframe.
Imagen 1. Muestra de la tabla books, la cual posee 5979 líneas donde los registros están anidados.
• Para optimizar el análisis, se deben integrar varias tablas, de manera que se pueda
aprovechar la información en una única vista minable.
• ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Emplearía una base de datos ROLAP (Base de datos relacional) como SQL server, dado
que se trata de datos estructurados, sujetos a operaciones analíticas como roll-up, drill-
down, slice, entre otros.
• ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Emplearía Git Hub para administrar en la nube las diferentes versiones con el equipo de
trabajo. Además, al ser de código abierto, no requiere alta inversión. Incluso, podría
trabajarse con Google Colab.
3. CONCLUSIONES
El proyecto de la Librería Iztaccihuatl es relativamente sencillo, siempre y cuando se realice

un buen proceso de transformación de los datos. Se requiere tomar decisiones sobre el
tratamiento de datos nulos y determinar con el experto del negocio, cuál sería el análisis
que mayor valor le aporte a sus objetivos (KPI´s). De acuerdo con ello, realizar los modelos
y colocarlos en funcionamiento.

Entregable Ana Lopez - Librería

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entregable Ana Lopez - Librería

Cargado por

Copyright:

Formatos disponibles

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN

ANA EMILIA LOPEZ VARGAS

1. ENTENDIMIENTO DEL NEGOCIO - INTRODUCCIÓN

La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido

2.1 Recolección Inicial de datos

2.2 Descripción de los datos

El archivo “books” contiene los siguientes datos:

• Id - Identificador del registro

• Book Id - Identificador del libro

• Number Editions - Número de ediciones

• ISBN - Clave estándar internacional del libro

• ISBN13 - Clave estándar extendida internacional del libro

• Authors - Autor del libro

• Original Publication - Fecha de publicación

• Original Title - Título original del libro

• Title - Título del libro

• Average Rating - Promedio de la clasificación del libro

• Image - Enlace a la imagen de la portada del libro

• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.

El archivo “top_books” contiene los siguientes datos:

• Position - Posición del libro en la clasificación del libro

• ISBN - Clave estándar extendida internacional del libro

• Title - Título del libro

• Author - Autor del libro

• Publisher Group - Grupo Editorial

• Volume - Volumen de ventas hasta el 2010

• Value - Ventas determinadas por el volumen

• RRP - Precio recomendado para minoristas

• ASP - Precio promedio para venta

• Binding - Tipo de encuadernación

• Publ Date - Fecha de publicación

• Product Class - Clasificación del libro

• Classification - Clasificación General del libro

El archivo “ratings” contiene los siguientes datos:

• Book Id - Identificador del libro

• User Id - Identificador del cliente/usuario que clasifico un libro

El archivo “to_read” contiene los siguientes datos:

• User Id - Identificador del cliente/usuario que clasifico un libro

• Book Id - Identificador del libro

• ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?

Se proponen las siguientes transformaciones para los archivos:

Presenta el problema de que muchas celdas (5979) poseen la información anidada

El proyecto de la Librería Iztaccihuatl es relativamente sencillo, siempre y cuando se realice

También podría gustarte