Entregable Ana Lopez - Librería
Entregable Ana Lopez - Librería
LIBRERÍA IZTACCIHUATL
TECNOLOGICO DE MONTERREY
JULIO DE 2022
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN
LIBRERÍA IZTACCIHUATL
La librería proporcionó cuatro bases de datos que contienen información de sus clientes,
libros, autores, entre otros.
La base de datos “books.xls”, corresponde a una muestra aleatoria simple de los clientes
de la librería y está compuesta por 13 variables y 10.000 registros. La base de datos
“ratings.csv”, posee 3 variables y 981.756 registros. La base de datos “to_read.xls” contiene
912.705 registros con 2 columnas, y por último, la base de datos “top_books.xls”, posee 14
variables y 120 registros.
• Imprint - Editorial
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones
y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.
2. PREGUNTAS
• ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis
de datos de la Librería Iztaccihuatl?
Emplearía Python o R. Dado que son lenguajes de programación de código abierto que
brindan las librerías para realizar modelos predictivos.
a) Predicción por modelo de regresión lineal de las ventas del próximo año
(precio promedio recomendado y monto de las ventas del próximo año)
b) Predicción por medio de un modelo de árbol de decisión de cuáles sería la
clasificación de libros más relevantes para las próximas ventas
c) Predicción por redes neuronales del número de ediciones que se generarán
próximamente en los diferentes tipos de libros.
• ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder
realizar un análisis predictivo?
• Books
Imagen 1. Muestra de la tabla books, la cual posee 5979 líneas donde los registros están anidados.
• Para optimizar el análisis, se deben integrar varias tablas, de manera que se pueda
aprovechar la información en una única vista minable.
• ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Emplearía una base de datos ROLAP (Base de datos relacional) como SQL server, dado
que se trata de datos estructurados, sujetos a operaciones analíticas como roll-up, drill-
down, slice, entre otros.
• ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Emplearía Git Hub para administrar en la nube las diferentes versiones con el equipo de
trabajo. Además, al ser de código abierto, no requiere alta inversión. Incluso, podría
trabajarse con Google Colab.
3. CONCLUSIONES