Distancias Biologicas
Distancias Biologicas
Distancias Biologicas
DISTANCIAS BIOLÓGICAS:
El objetivo es estudiar los métodos numéricos que señalen la diferenciación o similitud
entre taxas, razas, etnias, especies cuando se registran numerosas características
(multivariadas) asociadas o no, continua o cualitativas.
Distancia: Es un concepto físico o espacial de alejamiento o cercanía entre objetos que se
desea aplicar en la biología.
Alejamiento: diferencia, disimilitud, diferenciación.
Cercanía: parecido, similitud, afinidad.
Ej: Bogotá y Tokio (14316 km), Bogotá e Ibagué (130 km), por lo tanto Bogotá está más
cerca de Ibagué y más lejos de Tokio.
Esto hace referencia a dos puntos, a dos objetos en el espacio. Pares de puntos (A y B); (B
y C).
2 X
b2
A: (XA1, XA2)
a2
d2 = a2+b2
: DISTANCIA
B: (XB1, XB2)
Y A: (X2 , Y2) Y
A: (X2 ,
Y2)
Distancia
Dista
ncia
1. d 2AB ≥ 0
2. d 2AB=0
3. d 2AB=d 2BA
4. d 2AB=≤d 2AC +d 2CB
C
A B
Si adolece (4) no es métrica pero es una distancia entre A y B.
Euclidiana es métrica.
Nota:
1. Se expresa en términos al cuadrado.
2. Las X Aj y X Bj pueden estar en diferentes unidades que expresan mayor o menor
magnitud. Pe. 1000 g tiene una mayor magnitud en términos numéricos que 1 kg.
3. Las unidades tienen peso potente, propiedades, muchos usos y aplicaciones.
4. Las X Aj y X Bj son independientes se construyó en un plano “Ortogonal”
p
2
1. d AB=∑ ( x Aj−x Bj ) ² : Euclidiana
j=1
p
1
2. d 2AB= ∑ (x −x ) ² :Euclidiana promedio
p j=1 Aj Bj
p
3. d 2AB=∑ ( z Aj−z Bj ) ² : Euclidiana Estandarizada
j=1
p
2
4. d =∑ |x Aj−x Bj| ²
AB : Manhattan – City Block
j=1
∑ x Aj x Bj
2 j=1
5. d =1−
AB p p : Cuerda
√∑ j=1
2
x +∑ x
Bj
j=1
2
Bj
∑ |x Aj−x Bj|
6. d 2 =1− j=1 : Camberra Bray- Curtis
AB
(|x Aj|+|x Bj|)
DISTANCIA EUCLIDIANA (Ejemplo)
Esta distancia considera 4 razas (A, B, C, D) y 5 características
X1= Altura (m) X2= Longitud MZC (cm)
X3= Número de hojas X4= Distancia de tallo (cm) X5= Numero de Hill.
Variables
Razas X1 X2 X3 X4 X5X
A 2.8 15 15 2.7 13
B 2.5 16 14 2.6 14
C 3.0 21 13 2.4 18
D 3.0 20 12 2.3 19
Media 2.83 18 13.5 2.5 16
Desviación 0.24 2.9 1.3 0.2 2.9
estándar
D 2AB= (2.8−2.5 )2 + ( 15−16 )2+ ( 15−14 )2+ ( 2.7−2.6 )2+ ( 13−14 )2 =3.10
❑ ( x ij− x´. j )
z ij =
s
( 2.8−2.83 )
z❑11= =−.02
0.24
( 15−18 )
z❑12= =−1.03
2.9
( 19−16 )
z❑45= =1.03
2.9
2 2 2
D 2AB=( −0.125−(−1.375 ) ) + (1.15−0.38 ) + ( 1.0−0.5 ) + (−1.03− (−0.68 ) )²=2.64
A
D 2= B 0 ¿ 10.45 10.72 0 0
| ¿ ¿ ¿
C 2.64 ¿ 17.06 11.52 1.08
¿ |
D
DISTANCIAS GENÉTICAS
Cuando se observan seres vivos a nivel de genoma se pueden registras sus frecuencias de
genes: El locus U puede tener alelos U1, U2, U3,…,U5 con frecuencias alélicas P1, P2, P3,
…,P5. A dos taxas A y B se le puede registrar la frecuencias génicas en varios loci: U, R, S,
T… y se tenga PAU, PAR, PAS,... y PBU, PBR, PBS,…
Entonces la distancia euclidiana entre A y B es:
p
d 2AB=∑ ( P Aj−PBj ) ²
j=1
D2AB=∑ (√ p1 A ¿−√ P1 B )² ¿
CLASES DE DISTANCIAS “GENÉTICAS”
NOMBRE ECUACIÓN
P
1
1. Rogers d 2AB= ∑ ( P −P Bj) ²
2 l j=1 Aj
P
2. Cavalli- Sforza d 2AB=∑ ( √ P Aj −√ P Bj ) ²
j=1
P
2 1
3. Prevosti d = ∑|P Aj−P Bj|
AB
2 l j=1
P
4. Nei
2
d =−ln
AB
[√ ]P
j=1
∑ P Aj P Bj
P
j=1
∑ P ∑ P2Bj 2
Aj
P
j=1
5. Cuerda [
d 2AB=4 l−∑ √ ( P Aj−PBj )
j=1
]
3
6. Jukes –Cantor d 2AB= ln ( q AB −1 )
4
Fórmula:
P
d 2AB=∑ ( P Aj−PBj ) ²
j=1
Locus 1 Locus 2
Población P1 P2 P1 P2 P3
A 0.6 0.4 0.3 0.2 0.5
B 0.3 0.7 0.6 0.1 0.3
C 0.4 0.6 0.7 0.2 0.1
D 0.2 0.8 0.2 0.7 0.1
A
D 2= B 0 ¿ 0.40 0.08 0 0
| ¿ ¿ ¿
C 0.27 ¿ 0.58 0.58 0.82
¿ |
D
1 0.00
2 0.14 0.00
3 0.57 0.50 0.00
4 0.07 0.08 0.54 0.00
5 0.037 0.43 0.15 0.47 0.00
6 0.38 0.45 0.63 0.49 0.38 0.00
7 0.06 0.14 0.47 0.12 0.29 0.28 0.00
8 0.33 0.20 0.40 0.27 0.33 0.56 0.39 0.00
DENDOGRAMAS
Representación bidimensional de una matriz de distancias facilita el análisis por ser una
expresión gráfica, muestra la relación en grado de similitud entre dos poblaciones o grupos,
los valores de similitud se expresan en una escala, estos pueden ser obtenidos mediante los
siguientes métodos:
1. Distancia Mínima (Single Linkage)
2. Distancia máxima ( Complete Linkage)
3. Promedio (UPGMA)
4. Mínima varianza
5. Centroide
La matriz de distancias puede ser métrica o no, y dentro de estas técnicas la más utilizada es
la media aritmética ponderada (UPGMA).
2
1. d ( 3,5 ) ,1=Min [ d 3,1 ; d 5,1 ]=Min [ 3,11 ] =3
2
2. d ( 3,5 ) ,2=Min [ d 3,2 ; d 5,2 ]=Min [ 7,10 ] =7
2
3. d ( 3,5 ) , 4=Min [ d 3,4 ; d 5,4 ]=Min [ 9,8 ] =8
1 3 0 2 4
3.5 1
d= ¿2¿7¿9¿ 0
3.5 ¿ ¿ 0
4 8 6 5
351
d= 2 351 2 4 0 ¿ 0 ¿
0 ¿ ¿5
4
2,4 3,5,1
d= ¿ 3,5,1 ¿6 ¿ 0 ¿
2,4 ¿
Ejemplo: Método Promedio (UPGMA)
2 9 0 3 4 5
d ❑=1 2 ¿ 3 ¿ 3 ¿ 7 ¿ 0 0
1 ¿ 4 6 5 ¿9 0
8
5 11 10 2
1 1
d ( 3,5 ) ,1= [ d +d ]= [ 3+11 ]=7.0
2 31 51 2
1 1
d ( 3,5 ) ,2= [ d 32+d 52 ] = [ 7+10 ]=8.5
2 2
1 1
d ( 3,5 ) , 4= [ d 34+ d 54 ] = [ 9+8 ]=8.5
2 2
1 7.0 0 2 4
d= 3,5 1 ¿ 2 ¿ 8.5 ¿ 9 ¿ 0
3,5 ¿ ¿ 0
4 8.5 6 5
1 1
d ( 2,4 ) , 3,5= [ d 23 +d 43 +d 25 +d 45 ] = [ 7+9+ 10+ 8 ] =8.5
4 4
1 1
d ( 2,4 ) , 1= [ d + d ]= [ 9+6 ]=7.5
2 21 41 2
d= 2,4 3,5 ¿ 3,5 ¿ 8.5 ¿ 0 ¿ 1
2,4 ¿ 1 7.5 7.0 ¿ 0
1
d ( 351 ) , 24= [ d +d + d + d + d + d ]
6 32 52 12 34 54 14
1
d ( 351 ) , 24= [ 7+10+ 9+9+ 8+6 ] =8.2
14
COEFICIENTES DE CONCORDANCIA – SIMILITUD
Ampliamente utilizados en ecología, buscan cuantificar variables que solo toman dos
valores: Ausencia o presencia del carácter. La matriz que resulta de disponer
ordenadamente los coeficientes de similitud entre relevamientos (objetos) recibe el nombre
de matriz tipo “Q” en contraposición con las matrices derivadas de calcular la similitud,
asociación o correlación entre pares de especies o factores del ambiente (caracteres) que
reciben el nombre de matrices “R”.
Son conocidos (algunos desde el principio del siglo)
Han recobrado vigencia: Marcadores bioquímicos – serológicos – moleculares –
biodiversidad
Expresan “similitud”, “semejanza”, “Afinidad”, entre pares de “Taxas”, razas
“Colectas”.
Se pueden traducir a distancias con relaciones matemáticas.
Concordancia simple
A
3/6 1
C
D
[
S= 1 ¿ 3/6 2/6 1 1
B
2/6 1/6
3/6 ]
JACCARD
Es otra medida que solo cuenta presencia (1,1), es decir, la presencia es más importante y
expresa más semejanza que la ausencia.
SAB: 1/4: (1, 1).
SAC: 1/4: (1, 1).
SAD: 1/5: (1,1).
SBC: 0
SBD: 0
SCD: 1/4: (1, 1).
A
1/4 1
C
D
[
S= B 1 ¿ 1/4 0 1
1/5 0
1/4 ]
Coeficiente JACCARD
DISTANCIA EUCLIDIANA
D AB=3 ; D AC =3; D AD =4
A
3 0
C
D
[
d= B 0 ¿ 3 4 0 0
4 4
3 ]
En general para un “par” de “razas” se tiene la siguiente tabla:
1 0
A 1 a b
0 c d
n=a+b +c
a+d
SAB= : Coeficiente de concordancia simple
n
a
S AB= ( a+b+ c)
: Coeficiente de concordancia JACCARD
1. D2ij =1−S ij
2. D2ij =2 ( 1−Sij )
2 1
3. Dij = ( 1+S )
ij
2 1
4. Dij = ( 1−S )
ij
2
Gower (1966): Dij =( 1−S ij )