Distancias Biologicas

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 17

NOTAS DE CLASE

DISTANCIAS BIOLÓGICAS:
El objetivo es estudiar los métodos numéricos que señalen la diferenciación o similitud
entre taxas, razas, etnias, especies cuando se registran numerosas características
(multivariadas) asociadas o no, continua o cualitativas.
Distancia: Es un concepto físico o espacial de alejamiento o cercanía entre objetos que se
desea aplicar en la biología.
Alejamiento: diferencia, disimilitud, diferenciación.
Cercanía: parecido, similitud, afinidad.
Ej: Bogotá y Tokio (14316 km), Bogotá e Ibagué (130 km), por lo tanto Bogotá está más
cerca de Ibagué y más lejos de Tokio.
Esto hace referencia a dos puntos, a dos objetos en el espacio. Pares de puntos (A y B); (B
y C).

2 X
b2

A: (XA1, XA2)
a2

d2 = a2+b2
: DISTANCIA
B: (XB1, XB2)

La distancia Euclidiana se deduce a partir del teorema de Pitágoras

d 2=a2+ b2=( x B 1−x A 1 )2 + ( x A 2−x B 2) ²


X1

d 2=( x B 1−x A 1 )2 + ( x A 2−x B 2) ²


Para más dimensiones tenemos:

d 2=( x B 1−x A 1 )2 + ( x A 2−x B 2) 2+ ( x A 3−x B 3 )2 +…


p
2 2
d =∑ ( x Aj−x Bj )
AB
J=1

Es necesario: Conceptuarlo, formalizarlo, formularlo matemáticamente: Sistemas


coordenadas en el plano cartesiano (Plano euclidiano). Los puntos, objetos se identifican
con coordenadas, existe un origen o centralización.
Problema 1
Considere el plano cartesiano, ubique dos objetos A y B. La distancia entre ellos es la línea
corta que los une:

Y A: (X2 , Y2) Y

A: (X2 ,
Y2)

Distancia
Dista
ncia

B: (X1 , Y1) B: (X1 ,


X Y 1)
Se calculará la distancia entre A y B: La Línea más corta es la recta que los dos puntos, en
X
nuestro caso dos individuos (genotipos) con al menos dos características evaluadas.
Las distancias para medir cercanía o alejamiento entre dos individuos pueden ser métricas y
no métricas, prefiriendo las primeras. Las métricas son las que cumplen las siguientes
propiedades:

1. d 2AB ≥ 0
2. d 2AB=0
3. d 2AB=d 2BA
4. d 2AB=≤d 2AC +d 2CB
C

A B
Si adolece (4) no es métrica pero es una distancia entre A y B.
Euclidiana es métrica.
Nota:
1. Se expresa en términos al cuadrado.
2. Las X Aj y X Bj pueden estar en diferentes unidades que expresan mayor o menor
magnitud. Pe. 1000 g tiene una mayor magnitud en términos numéricos que 1 kg.
3. Las unidades tienen peso potente, propiedades, muchos usos y aplicaciones.
4. Las X Aj y X Bj son independientes se construyó en un plano “Ortogonal”

UNIDADES O ESCALA DE LAS VARIABLES.


Se acostumbra modificar la escala de las variables mediante la estandarización Z, esto es
que la nueva variable estandarizada tenga media cero y varianza 1.
Z=(X-Media)/(Desviación estándar)
Existen distancias invariantes a escala: Ej. Chord.
Algunas variables tienen la misma unidad de medida y no requieren estandarización como
es el caso de frecuencia de genes, marcadores morfológicos y moleculares.
CLASES DE DISTANCIAS: “CONTINUAS”

p
2
1. d AB=∑ ( x Aj−x Bj ) ² : Euclidiana
j=1

p
1
2. d 2AB= ∑ (x −x ) ² :Euclidiana promedio
p j=1 Aj Bj

p
3. d 2AB=∑ ( z Aj−z Bj ) ² : Euclidiana Estandarizada
j=1

p
2
4. d =∑ |x Aj−x Bj| ²
AB : Manhattan – City Block
j=1

∑ x Aj x Bj
2 j=1
5. d =1−
AB p p : Cuerda
√∑ j=1
2
x +∑ x
Bj
j=1
2
Bj

∑ |x Aj−x Bj|
6. d 2 =1− j=1 : Camberra Bray- Curtis
AB
(|x Aj|+|x Bj|)
DISTANCIA EUCLIDIANA (Ejemplo)
Esta distancia considera 4 razas (A, B, C, D) y 5 características
X1= Altura (m) X2= Longitud MZC (cm)
X3= Número de hojas X4= Distancia de tallo (cm) X5= Numero de Hill.

Variables
Razas X1 X2 X3 X4 X5X
A 2.8 15 15 2.7 13
B 2.5 16 14 2.6 14
C 3.0 21 13 2.4 18
D 3.0 20 12 2.3 19
Media 2.83 18 13.5 2.5 16
Desviación 0.24 2.9 1.3 0.2 2.9
estándar
D 2AB= (2.8−2.5 )2 + ( 15−16 )2+ ( 15−14 )2+ ( 2.7−2.6 )2+ ( 13−14 )2 =3.10

D 2AC =( 2.8−3.0 )2 + ( 15−21 )2 + ( 15−13 )2+ ( 2.7−2.4 )2 + ( 13−18 )2 =65.13

D 2AD =( 2.8−3.0 )2 + ( 15−20 )2 + ( 15−12 )2 + ( 2.7−2.3 )2 + ( 13−19 )2=70.2

D 2CD =( 3.0−3.0 )2+ ( 2.1−2.0 )2 +…+ (18−19 )2=3.01


A
3.10 0
C
D
[
D2= B 0 ¿ 65.13 42.29 0 0
70.20 21.61
3.01 ]
DISTANCIA EUCLIDIANA ESTANDARIZADA
Los datos anteriores se estandarizan

❑ ( x ij− x´. j )
z ij =
s
( 2.8−2.83 )
z❑11= =−.02
0.24

( 15−18 )
z❑12= =−1.03
2.9
( 19−16 )
z❑45= =1.03
2.9

Variables centradas y estandarizadas


Razas Z1 Z2 Z3 Z4 Z5
A -0.125 -1.03 1.15 1.0 -1.03
B -1.375 -0.69 0.38 0.5 -0.68
C 0.708 1.03 -0.38 -0.5 0.68
D 0.708 0.69 -1.15 -1.0 1.03
Media 0.0 0.0 0.0 0.0 0.0
Desviació 1.0 1.0 1.0 1.0 1.0
n estándar

2 2 2
D 2AB=( −0.125−(−1.375 ) ) + (1.15−0.38 ) + ( 1.0−0.5 ) + (−1.03− (−0.68 ) )²=2.64
A
D 2= B 0 ¿ 10.45 10.72 0 0
| ¿ ¿ ¿
C 2.64 ¿ 17.06 11.52 1.08
¿ |
D

DISTANCIAS GENÉTICAS
Cuando se observan seres vivos a nivel de genoma se pueden registras sus frecuencias de
genes: El locus U puede tener alelos U1, U2, U3,…,U5 con frecuencias alélicas P1, P2, P3,
…,P5. A dos taxas A y B se le puede registrar la frecuencias génicas en varios loci: U, R, S,
T… y se tenga PAU, PAR, PAS,... y PBU, PBR, PBS,…
Entonces la distancia euclidiana entre A y B es:
p
d 2AB=∑ ( P Aj−PBj ) ²
j=1

Sobre todos loci y alelos


1. P Aj y PBj misma medida
2. Son independientes
3. Es métrica
4. Buena medida
DISTANCIA GENÉTICA DE EDWARS… CAVALLI SFORZA

D2AB=∑ (√ p1 A ¿−√ P1 B )² ¿
CLASES DE DISTANCIAS “GENÉTICAS”
NOMBRE ECUACIÓN
P
1
1. Rogers d 2AB= ∑ ( P −P Bj) ²
2 l j=1 Aj
P
2. Cavalli- Sforza d 2AB=∑ ( √ P Aj −√ P Bj ) ²
j=1
P
2 1
3. Prevosti d = ∑|P Aj−P Bj|
AB
2 l j=1
P

4. Nei
2
d =−ln
AB

[√ ]P
j=1
∑ P Aj P Bj
P
j=1

∑ P ∑ P2Bj 2
Aj
P

j=1

5. Cuerda [
d 2AB=4 l−∑ √ ( P Aj−PBj )
j=1
]
3
6. Jukes –Cantor d 2AB= ln ( q AB −1 )
4

q AB=¿ Proporción bases común


𝓁= ≠ loci
DISTANCIA “ROGERS”: Es una distancia geométrica media modificada de tal
forma que los valores extremos sean cero y uno. El valor cero se obtienen cuando en las dos
poblaciones coinciden las frecuencias alélicas para todos los loci, es utilizada para datos de
electroforesis de proteínas.

Fórmula:
P
d 2AB=∑ ( P Aj−PBj ) ²
j=1

Locus 1 Locus 2
Población P1 P2 P1 P2 P3
A 0.6 0.4 0.3 0.2 0.5
B 0.3 0.7 0.6 0.1 0.3
C 0.4 0.6 0.7 0.2 0.1
D 0.2 0.8 0.2 0.7 0.1

D 2AB= ( 0.6−0.3 )2+ …+ ( 0.5−0.3 )2=0.27

D 2AB= ( 0.4−0.2 )2+ …+ ( 0.1−0.1 )2 =0.82

A
D 2= B 0 ¿ 0.40 0.08 0 0
| ¿ ¿ ¿
C 0.27 ¿ 0.58 0.58 0.82
¿ |
D

Distancia de Nei o distancia genética estándar: Esta distancia es proporcional al


tiempo durante el cual las dos poblaciones que se comparan han evolucionado
independientemente. Considera los cambios en las frecuencias alélicas derivados tanto de
mutaciones como de efectos de deriva genética. Bajo el modelo de alelos infinitos se
supone que la DAB se incrementa de manera lineal con respecto al tiempo, en caso de que
se mantenga un balance mutación- deriva a través del proceso evolutivo investigado
[ CITATION Dem09 \l 9226 ]
Tabla 5. Matriz de Distancia Nei en ocho líneas de Brassica napus

1 0.00
2 0.14 0.00
3 0.57 0.50 0.00
4 0.07 0.08 0.54 0.00
5 0.037 0.43 0.15 0.47 0.00
6 0.38 0.45 0.63 0.49 0.38 0.00
7 0.06 0.14 0.47 0.12 0.29 0.28 0.00
8 0.33 0.20 0.40 0.27 0.33 0.56 0.39 0.00
DENDOGRAMAS
Representación bidimensional de una matriz de distancias facilita el análisis por ser una
expresión gráfica, muestra la relación en grado de similitud entre dos poblaciones o grupos,
los valores de similitud se expresan en una escala, estos pueden ser obtenidos mediante los
siguientes métodos:
1. Distancia Mínima (Single Linkage)
2. Distancia máxima ( Complete Linkage)
3. Promedio (UPGMA)
4. Mínima varianza
5. Centroide
La matriz de distancias puede ser métrica o no, y dentro de estas técnicas la más utilizada es
la media aritmética ponderada (UPGMA).

ALGORITMO DEL DENDROGRAMA:


1. De la matriz encuentre la distancia mínima entre un par de taxas ie, d 2U,V . Agrupe el
par mediante (U , V) y grafique:
d
V

2. Calcule la distancia “Mínima” (máxima o promedio o centroide etc.) entre (U, V) y


el resto de Taxas.
3. Construya una nueva matriz, eliminando U y V de las filas y columnas, luego
coloque el conglomerado (U, V) como una “Nueva Taxa”
4. Repita 1,2,3 y termine
Ejemplo: Método del mínimo (Single Linkage)
1
0
2 0 4 5
1 2 37¿ ¿
3 9 ¿0 0
0 ¿ ¿ 5
4 2 8
10
5

2
1. d ( 3,5 ) ,1=Min [ d 3,1 ; d 5,1 ]=Min [ 3,11 ] =3
2
2. d ( 3,5 ) ,2=Min [ d 3,2 ; d 5,2 ]=Min [ 7,10 ] =7
2
3. d ( 3,5 ) , 4=Min [ d 3,4 ; d 5,4 ]=Min [ 9,8 ] =8
1 3 0 2 4
3.5 1
d= ¿2¿7¿9¿ 0
3.5 ¿ ¿ 0
4 8 6 5

d ( 35,1 ) , 2=Min [ d 35,2 ; d 1,2 ]=Min [ 7 , 9 ]=7

d ( 35,1 ) , 4= Min [ d 35,4 ; d 1,4 ] =Min [ 8 , 6 ] =6

351
d= 2 351 2 4 0 ¿ 0 ¿
0 ¿ ¿5
4

d ( 24 ) , ( 351 )=Min [ d 2,351 ; d 4,351 ] =Min [ 7 , 6 ] =6

2,4 3,5,1
d= ¿ 3,5,1 ¿6 ¿ 0 ¿
2,4 ¿
Ejemplo: Método Promedio (UPGMA)
2 9 0 3 4 5
d ❑=1 2 ¿ 3 ¿ 3 ¿ 7 ¿ 0 0
1 ¿ 4 6 5 ¿9 0
8
5 11 10 2

1 1
d ( 3,5 ) ,1= [ d +d ]= [ 3+11 ]=7.0
2 31 51 2
1 1
d ( 3,5 ) ,2= [ d 32+d 52 ] = [ 7+10 ]=8.5
2 2
1 1
d ( 3,5 ) , 4= [ d 34+ d 54 ] = [ 9+8 ]=8.5
2 2

1 7.0 0 2 4
d= 3,5 1 ¿ 2 ¿ 8.5 ¿ 9 ¿ 0
3,5 ¿ ¿ 0
4 8.5 6 5

1 1
d ( 2,4 ) , 3,5= [ d 23 +d 43 +d 25 +d 45 ] = [ 7+9+ 10+ 8 ] =8.5
4 4
1 1
d ( 2,4 ) , 1= [ d + d ]= [ 9+6 ]=7.5
2 21 41 2
d= 2,4 3,5 ¿ 3,5 ¿ 8.5 ¿ 0 ¿ 1
2,4 ¿ 1 7.5 7.0 ¿ 0

1
d ( 351 ) , 24= [ d +d + d + d + d + d ]
6 32 52 12 34 54 14
1
d ( 351 ) , 24= [ 7+10+ 9+9+ 8+6 ] =8.2
14
COEFICIENTES DE CONCORDANCIA – SIMILITUD
Ampliamente utilizados en ecología, buscan cuantificar variables que solo toman dos
valores: Ausencia o presencia del carácter. La matriz que resulta de disponer
ordenadamente los coeficientes de similitud entre relevamientos (objetos) recibe el nombre
de matriz tipo “Q” en contraposición con las matrices derivadas de calcular la similitud,
asociación o correlación entre pares de especies o factores del ambiente (caracteres) que
reciben el nombre de matrices “R”.
 Son conocidos (algunos desde el principio del siglo)
 Han recobrado vigencia: Marcadores bioquímicos – serológicos – moleculares –
biodiversidad
 Expresan “similitud”, “semejanza”, “Afinidad”, entre pares de “Taxas”, razas
“Colectas”.
 Se pueden traducir a distancias con relaciones matemáticas.

Ej: Suponga 4 “colectas”, “Razas”, clones, especie.


A B C D
1 1 0 0
0 0 1 1
1 0 1 0
0 0 0 1
1 0 0 1
0 1 0 0
1= Presencia
0= Ausencia
- Medida, similitud entre A, B; A, C; A, D etc.
- Sera la proporción de “Concordancias” ≠ceros, ≠ unos.
- En afinidad: Señala parecido, comparten el mismo resultado: [(0,0] y [(1,1)].
- El carácter (Banda) esta “presente” o ausente simultáneamente.
SAB: 3/6: (1, 1), (0,0), (0,0)
SAC: 3/6: (1, 1), (0,0), (0,0)
SAD: 2/6: (1,1), (0,0), (0,0)
SBC: 2/6: (0,0), (0,0)
SBD: 1/6: (0,0)
SCD: 3/6: (0,0), (1,1), (0,0)

Se construye matriz similitud:

Concordancia simple
A
3/6 1
C
D
[
S= 1 ¿ 3/6 2/6 1 1
B
2/6 1/6
3/6 ]
JACCARD
Es otra medida que solo cuenta presencia (1,1), es decir, la presencia es más importante y
expresa más semejanza que la ausencia.
SAB: 1/4: (1, 1).
SAC: 1/4: (1, 1).
SAD: 1/5: (1,1).
SBC: 0
SBD: 0
SCD: 1/4: (1, 1).

A
1/4 1
C
D
[
S= B 1 ¿ 1/4 0 1
1/5 0
1/4 ]
Coeficiente JACCARD
DISTANCIA EUCLIDIANA
D AB=3 ; D AC =3; D AD =4

DBC =4 ; D BD=4 ; DCD =3

A
3 0
C
D
[
d= B 0 ¿ 3 4 0 0
4 4
3 ]
En general para un “par” de “razas” se tiene la siguiente tabla:

1 0
A 1 a b
0 c d

n=a+b +c
a+d
SAB= : Coeficiente de concordancia simple
n
a
S AB= ( a+b+ c)
: Coeficiente de concordancia JACCARD

Coeficiente Ecuación Autor


1. Simple a+d Sokal, Michever 1958
n
2. JACCARD Jaccard 1945
( a+ba +c )
3. DICE Dice 1945
2a
( 2 a+b+ c )
4. NEI Nei 1987
( b+2ac )
5. D. Euclidiana ( b+ c )
2
D =b+c: Distancia Euclidiana.
AB

RELACIÓN ENTRE DISTANCIAS Y SIMILITUDES


En general mediante ecuaciones algebraicas se pueden construir distancias a partir de
similitudes.
La literatura plantea varias ecuaciones así:

1. D2ij =1−S ij
2. D2ij =2 ( 1−Sij )
2 1
3. Dij = ( 1+S )
ij

2 1
4. Dij = ( 1−S )
ij

2
Gower (1966): Dij =( 1−S ij )

Solo tiene esa propiedad de distancia.

También podría gustarte