2 - Trabajando Con RDDs Spark Curso BIT (CasiFin)

Trabajando con RDDs
1
Trabajando con RDDs
RDD: Resilient Distributed Dataset: es una simple, RESILIENTE e
INMUTABLE colección DISTRIBUIDA de objetos.
◦ Es RESILIENTE (tolerante a fallos): Podemos recuperar los datos en
memoria si se pierden.
◦ Es INMUTABLE: no podemos realizar modificaciones sobre un mismo
RDD. Si queremos modificarlo tendremos que crear uno nuevo.
◦ Es DISTRIBUIDO: cada RDD es dividido en múltiples particiones
automáticamente. El RDD puede ser ejecutado en diferentes nodos del
clúster.
◦ DATASET: Conjunto de datos. 2 tipos de fuentes: externas, datos en
memoria.
2
Trabajando con RDDs
Los usuarios pueden crear RDDs de dos maneras
◦ Transformando un RDD que ya existe
◦ Desde un objeto SparkContext distribuyendo una colección de objetos (ej: una
lista) en su driver
2 tipos de operaciones sobre los RDD:

◦ Transformaciones: operaciones que crean un nuevo RDD
◦ Ejemplo: Filtrar un RDD por las líneas que contengan una cadena.
◦ Acciones: operaciones que devuelven un resultado. Devuelven cualquier tipo de
datos menos un RDD.
◦ Ejemplo: contar el número de líneas de un RDD
3
Trabajando con RDDs
El Spark Context es la manera que tenemos de comunicarnos
con el clúster
El método Parallelize convierte una Scala Collection local en un
RDD
El método textFile lee un fichero de texto desde HDFS o Local y

lo transforma en un RDD de tipo String
4
Trabajando con RDDs
Transformaciones
◦ Son perezosas: Spark no procesa las transformaciones
sobre RDD's hasta que no se ejecuta una acción sobre
ellos.
◦ El RDD resultado no es inmediatamente computado
Acciones
◦ No son perezosas: Eager
◦ El resultado es inmediatamente computado
Esta es la forma que tiene Spark de reducir el tráfico de red. Una vez que Spark ve toda la cadena de
transformaciones, puede procesar solo los datos que necesita para el resultado de la acción.
Ejemplo: Solo ejecutará las operaciones necesarias para obtener el valor del primer elemento del RDD.
5
Trabajando con RDDs
Ejemplo
◦ Supongamos que tenemos este código
RDD [String]
RDD [Int]
◦ PREGUNTA: ¿Qué ha ocurrido en el clúster hasta ahora, suponiendo que

map es una transformación?
6
Trabajando con RDDs
Ejemplo
◦ Supongamos que tenemos este código
RDD [String]
RDD [Int]
◦ PREGUNTA: ¿Qué ha ocurrido en el cluster hasta ahora, suponiendo que

map es una transformación?
◦ Nada, porque solo hemos ejecutado transformaciones (map)

◦ Se ha de esperar hasta ejecutar una acción para obtener un resultado
(SPARK es "lazy evaluator", solo realiza las transformaciones cuando se
ejecuta una acción)
7
Trabajando con RDDs
Ejemplo
◦ Supongamos que tenemos este otro código
◦ Donde hemos añadido una acción (reduce)

◦ Se ejecuta toda la cadena de transformaciones necesaria para calcular el
resultado de la acción.
◦ Esto hay que tenerlo muy en cuenta, porque muchos errores parten de la
idea de asumir que, tras ejecutar una transformación, esta se lleva a cabo.
8
Trabajando con RDDs
Aunque pueda resultar sorprendente a primera
vista, trabajar con transformaciones y acciones
tiene mucho sentido al trabajar con Big Data
Imaginemos, por ejemplo, que queremos
cargar un gran dataset de URLs y
posteriormente contar las veces que una
determinada IP accede a una determinada
URL.
Si ejecutásemos la primera transformación
según se escribe el comando, perderíamos
mucho tiempo y espacio al almacenar todo el
dataset en memoria dado que solo queremos
unas determinadas IPs y URLs.
En su lugar, Spark interpreta la cadena total de
transformaciones y computa solamente
aquellos datos que necesita para obtener el
resultado
9
Trabajando con RDDs
Como hemos visto, los RDDs son
computados cada vez que se realiza una
acción.
Si se va a utilizar el mismo RDD varias

veces es interesante persistir los
resultados para evitar la recomputación
de los mismos datos, usando RDD.persist()
La persistencia hace que Spark almacene

los resultados en memoria, particionados
a lo largo del clúster para ser reutilizados.
Existen diferentes niveles de persistencia

(memoria, disco, disco y memoria), pero
su utilización no interesa para el objetivo
del curso.
10
Trabajando con RDDs: Transformaciones
Transformaciones
◦ Aplican Lazy Evaluation
◦ val inputRDD = sc.textFile("log.txt")
◦ val errorsRDD = inputRDD.filter(line => line.contains("error"))
◦ En este ejemplo, filter no cambia el contenido de inputRDD, simplemente crea
punteros a un nuevo RDD, de manera que puede volver a ser reutilizado.
◦ errorsRDD = inputRDD.filter(line => line.contains("error"))
◦ warningsRDD = inputRDD.filter(line => line.contains(“warning")))
◦ badLinesRDD = errorsRDD.union(warningsRDD)
◦ Esta forma de trabajar hace que, en caso de pérdida de datos, se pueda volver a procesar todo
de nuevo, de manera que no se pierda nada.
11
Transformaciones más usadas
map()
◦ que genera un nuevo RDD aplicando alguna función sobre cada línea del RDD
filter()
◦ Toma una función y la aplica a los elementos del RDD que cumplen el filtro. Básicamente hace
lo mismo que el “where” en SQL
12
Transformaciones más usadas
flatMap()
◦ A veces queremos obtener como salida varios elementos dado uno de entrada
◦ Como map(), la función que le pasamos se aplica a cada elemento del RDD
individualmente, pero en lugar de devolver un solo resultado compuesto por el
resultado de aplicar dicha función a cada elemento, se itera sobre cada elemento
inicial y se devuelve un valor por cada iteración
◦ Una forma sencilla de entenderlo es, teniendo como entrada una frase, devolver
una lista de palabras
13
Trabajando con RDDs
Ejercicio
Asumimos que tenemos un RDD[String] que contiene GBs de logs del año
pasado. Cada elemento del RDD es una línea de logs.
Asumimos que las fechas están en formato YYYY-MM-DD:HH:MM:SS y que los
errores tienen el prefijo “error”
Existe una función contains() que devuelve las tuplas que contienen la cadena
de caracteres que se pase como parámetro.
Existe una función count() que cuenta filas
Pregunta: cómo determinamos cuántos errores han ocurrido en Diciembre de
2016?
val logs_ano_pasado: RDD[String]:…
14
Trabajando con RDDs: Acciones
La acción más típica es
reduce() -- los tipos de entrada y salida son iguales
◦ Opera sobre dos elementos del RDD y devuelve un resultado
◦ El ejemplo más simple es la suma de elementos
◦ De este modo es sencillo realizar sumas, cuentas o agregaciones
◦ val sum = rdd.reduce((x, y) => x + y)
◦ Todos los elementos del RDD deben ser del mismo tipo
Otro ejemplo, operación foldLeft (el tipo de datos de entrada es de un tipo y la salida puede ser de
otro)
def sum(list: List[Int]): Int = list.foldLeft(0)((r,c) => r+c)

def sum(list: List[Int]): Int = list.foldLeft(0)(_+_)
◦ Tenemos una lista de enteros

◦ Valor inicial 0
◦ R= resultado (acumulador)
◦ C= current valor
◦ Función: Suma secuencial, elemento actual más valor del siguiente. Hasta aquí todo correcto: se
van sumando los valores secuencialmente
15
Acciones (2)
◦ Existe la función collect() para devolver el dataset completo, pero
recordemos que el dataset será copiado al driver (nodo maestro) y una
excepción será lanzada si es demasiado grande para caber en memoria, por
lo que solo lo usaremos para pequeños datasets
◦ Para casos en los que queramos usar collect() en datasets muy grandes,
podemos hacer que su resultado se almacene en algún sistema de
almacenamiento, en lugar de en el driver, como Amazon s3 o HDFS
◦ Para ello podemos usar funciones como saveAsSequenceFile()
◦ Recordad que cada vez que ejecutamos una Acción, se debe ejecutar la
secuencia completa de transformaciones sobre el RDD, por lo que
conviene tener en mente la opción de persistir datos intermedios de vez
en cuando.
16
Acciones más usadas
count(), que cuenta el número de elementos (filas) de un RDD
take(n), que devuelve un array de n elementos
collect(), que devuelve un array de todos los elementos
saveAsTextfile(file), que guarda el RDD a un fichero de texto
Fichero_entrada.txt
Visite nuestro taller autorizado,

donde además podrá encontrar;
Mercedes-Benz de segunda mano,
> mydata = sc.textFile(“fichero_entrada.txt") con total garantía. Y si quiere vender,
… su coche o cambiar.
> mydata.count()
…
14/01/29 06:27:37 INFO spark.SparkContext: Job RDD mydata
finished: take at <stdin>:1, took
0.160482078 s Visite nuestro taller autorizado,
5 donde además podrá encontrar;
Mercedes-Benz de segunda mano,
con total garantía. Y si quiere vender,
su coche o cambiar.
17
Trabajando con RDDs
Ejemplo para mostrar el valor del "lazy fashion" de las transformaciones
Imaginemos este ejemplo
La ejecución de este filtro ocurre solo cuando se ejecuta la acción take(10)

Como hemos dicho, Spark lee y comprende la secuencia de
transformaciones a realizar antes de ejecutar la acción, por lo que se puede
aprovechar de ello
En este caso, Spark comenzará a computar cuando se ejecute la acción, y en
cuanto haya devuelto 10 elementos, dejará de computar.
De este modo se ahorra tiempo y recursos de computación
18
Trabajando con RDDs: foldLeft
*No todo es paralelizable y distribuible: dividir el total en piezas y trabajar sobre cada pieza
Pero, y si en lugar de una suma de enteros tenemos algo como esto?
A, B representa el tipo de datos de entrada
Origen Lista de enteros  Resultado string

Qué ocurre si dividimos esta tarea en dos para paralelizar?
◦ 1ª iteración paralela: dividimos la lista de enteros en dos piezas y aplicamos la función en paralelo
◦ 2ª iteración: combinación de valores. Cada pieza es de tipo String (no int como la lista inicial), por lo que la función
no aplica.
Si la lista fuera de strings, sería diferente.

Qué solución tenemos para este tipo de circunstancias?
19
20
Trabajando con RDDs: Reduce
Solución: utilizar la función aggregate
Contiene dos funciones

Seqop: operaciones secuenciales con datos de dos tipos diferentes A,B
Combop: operaciones de combinación, siempre del mismo tipo B
Esta es una de las funciones más usadas en Spark

Es paralelizable
Permite cambiar el tipo de los datos que devuelve
21
Transformaciones típicas
distinct(), union(), intersection(), subtract(), cartesian()
22
Listado de transformaciones
RDD = {1, 2, 3, 3}
23
Listado de transformaciones
RDDs = {1, 2, 3} y {3, 4, 5}
24
Listado de acciones
RDD = {1, 2, 3, 3}
25
Listado de acciones
RDD = {1, 2, 3, 3}
26
Ejercicios
Ejercicio
- SPK2-Ejercicio: Comenzando con los RDDs (módulo 2)
27

2 - Trabajando Con RDDs Spark Curso BIT (CasiFin)

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 - Trabajando Con RDDs Spark Curso BIT (CasiFin)

Cargado por

Copyright:

Formatos disponibles

Trabajando con RDDs

2 tipos de operaciones sobre los RDD:

El método textFile lee un fichero de texto desde HDFS o Local y

◦ PREGUNTA: ¿Qué ha ocurrido en el clúster hasta ahora, suponiendo que

◦ PREGUNTA: ¿Qué ha ocurrido en el cluster hasta ahora, suponiendo que

◦ Nada, porque solo hemos ejecutado transformaciones (map)

◦ Donde hemos añadido una acción (reduce)

Si se va a utilizar el mismo RDD varias

La persistencia hace que Spark almacene

Existen diferentes niveles de persistencia

def sum(list: List[Int]): Int = list.foldLeft(0)((r,c) => r+c)

◦ Tenemos una lista de enteros

Visite nuestro taller autorizado,

Imaginemos este ejemplo

La ejecución de este filtro ocurre solo cuando se ejecuta la acción take(10)

Origen Lista de enteros  Resultado string

Si la lista fuera de strings, sería diferente.

Contiene dos funciones

Esta es una de las funciones más usadas en Spark

También podría gustarte