Glosario de aprendizaje automático: evaluación de lenguajes

Esta página contiene términos del glosario Language Evaluation. Para todos los términos del glosario, haz clic aquí.

A

Attention,

#language

Es un mecanismo utilizado en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en un suma ponderada sobre un conjunto de entradas, en las que peso para cada entrada se calcula mediante otra parte de la de una red neuronal prealimentada.

Consulta también la autoatención y la autoatención de varios cabezales, que son las componentes básicos de Transformers.

codificador automático

#language
#image

Un sistema que aprende a extraer la información más importante del entrada. Los codificadores automáticos son una combinación de un codificador y decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:

  1. El codificador asigna la entrada a una imagen de baja dimensión (intermedio).
  2. El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de mayor dimensión original formato de entrada de texto.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original del formato intermedio del codificador de la mejor manera posible. Debido a que el formato intermedio es más pequeño (menor dimensión) que el formato original, el codificador automático se fuerza saber qué información de la entrada es esencial y la salida sean perfectamente idénticos a la entrada.

Por ejemplo:

  • Si los datos de entrada son un gráfico, la copia no exacta sería similar a el gráfico original, pero un poco modificado. Quizás el la copia no exacta elimina el ruido del gráfico original o rellena faltan algunos píxeles.
  • Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imita (pero no es igual) al texto original

Consulta también los codificadores automáticos variacionales.

modelo de regresión automático

#language
#image
#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores predicciones. Por ejemplo, los modelos de lenguaje autorregresivos predicen la siguiente token basado en los tokens predichos anteriormente. Todos los modelos basados en Transformer Los modelos grandes de lenguaje son autorregresivos.

En cambio, los modelos de imagen basados en GAN no suelen ser autoregresivos. ya que generan una imagen en una sola pasada y no iterativamente pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

B

bolsa de palabras

#language

Una representación de las palabras de una frase o pasaje independientemente del orden. Por ejemplo, una bolsa de palabras representa la después de tres frases de manera idéntica:

  • el perro salta
  • salta el perro
  • perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde tiene un índice para cada palabra del vocabulario. Por ejemplo: la frase el perro salta se asigna a un vector de atributos con un valor distinto de cero en los tres índices correspondientes a las palabras the, dog y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:

  • Un 1 para indicar la presencia de una palabra.
  • Un recuento de la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo: si la frase fuera el perro granate es un perro con pelaje granate, ambas maroon y perro se representarían con un 2, mientras que las otras palabras se represente con 1.
  • Algún otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa.

BERT (codificador bidireccional Representaciones de transformadores)

#language

Una arquitectura de modelo para la representación de texto. Un profesional El modelo BERT puede actuar como parte de un modelo más grande para la clasificación de texto o otras tareas de AA.

BERT tiene las siguientes características:

Entre las variantes de BERT, se incluyen las siguientes:

Consulta Código abierto de BERT: Entrenamiento previo de vanguardia para Natural Language Procesando para obtener una descripción general de BERT.

bidireccional

#language

Término usado para describir un sistema que evalúa el texto que antecede y sigue una sección objetivo del texto. Por el contrario, un Solo para el sistema unidireccional Evalúa el texto que antecede a una sección objetivo del texto.

Por ejemplo, considera un modelo de lenguaje enmascarado que debes determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:

¿Qué es _____ con usted?

Un modelo unidireccional de lenguaje tendría que basar solo sus probabilidades. según el contexto proporcionado por las palabras “qué”, “es” y “el”. En cambio, un modelo bidireccional de lenguaje también podría adquirir contexto a partir de "with" y "ustedes", lo que podría ayudar al modelo a generar mejores predicciones.

modelo bidireccional de lenguaje

#language

Un modelo de lenguaje que determina la probabilidad de que un token determinado está presente en una ubicación determinada en un extracto de texto basado en al texto anterior y siguiente.

bigrama

#seq
#language

n-grama en el cual n=2.

BLEU (Bilingual Evaluation Understudy)

#language

Una puntuación entre 0.0 y 1.0 inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Un BLEU una puntuación de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una Pésima traducción.

C

modelo de lenguaje causal

#language

Sinónimo de modelo de lenguaje unidireccional.

Consulta el modelo de lenguaje bidireccional para contrastar diferentes enfoques direccionales en el modelado de lenguaje.

cadena de pensamientos

#language
#generativeAI

Una técnica de ingeniería de instrucciones que fomenta un modelo de lenguaje grande (LLM) para explicar su el razonamiento, paso a paso. Por ejemplo, considera el siguiente mensaje, pagar atención especial a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60? millas por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

La respuesta del LLM probablemente:

  • Muestra una secuencia de fórmulas físicas, ingresando los valores 0, 60 y 7 en los lugares apropiados.
  • Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría llevar a una respuesta más correcta. Además, la cadena de pensamiento de instrucciones permite al usuario examinar los pasos del LLM para determinar si o no, la respuesta tiene sentido.

chatear

#language
#generativeAI

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo grande de lenguaje. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en contextual para las siguientes partes del chat.

Un chatbot es una aplicación de un modelo grande de lenguaje.

confabulación

#language

Sinónimo de alucinación.

Confabulación es probablemente un término más preciso desde el punto de vista técnico que alucinación. Sin embargo, la alucinación se volvió popular primero.

análisis de distrito electoral

#language

Dividir una oración en estructuras gramaticales más pequeñas ("componentes"). Una parte posterior del sistema de AA, como de comprensión del lenguaje natural puede analizar a los constituyentes con mayor facilidad que la oración original. Por ejemplo: considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador de distrito puede dividir esta oración en los siguientes elementos: dos integrantes:

  • Mi amigo es una frase nominal.
  • adopted two cats es una frase verbal.

Estos componentes se pueden subdividir aún más en componentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

podría subdividirse aún más en:

  • adopted es un verbo.
  • two cats es otra frase nominal.

incorporación de lenguaje contextualizada

#language
#generativeAI

Una incorporación que está cerca de “comprender” palabras y frases de una manera que los hablantes humanos nativos pueden hacerlo. Lenguaje contextualizado pueden comprender sintaxis, semántica y contexto complejos.

Por ejemplo, considera las incorporaciones de la palabra inglesa cow. Incorporaciones más antiguas como word2vec puede representar el inglés palabras para que la distancia en el espacio de incorporación de vaca a toro es similar a la distancia de oveja (oveja hembra) a ram (oveja macho) o hembra a macho. Lenguaje contextualizado las incorporaciones pueden ir un paso más allá reconociendo que los hablantes de inglés a veces usa informalmente la palabra cow para referirse a "cow" o "toro".

ventana de contexto

#language
#generativeAI

La cantidad de tokens que un modelo puede procesar en un instrucción. Mientras más grande es la ventana de contexto, más información que el modelo puede usar para brindar respuestas coherentes al mensaje.

floración

#language

Oración o frase con un significado ambiguo. Las flores de choque presentan un problema importante en la naturaleza comprensión del lenguaje. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una Crash blossom porque un modelo de CLN podría interpretar el titular literalmente o en sentido figurado.

D

decodificador

#language

En general, cualquier sistema de AA que convierta una representación interna a una más sin procesar, dispersa o externa.

Los decodificadores suelen ser un componente de un modelo más grande y, por lo general, en sincronización con un codificador.

En las tareas de secuencia a secuencia, el decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.

Consulta Transformer para conocer la definición de un decodificador. la arquitectura de transformadores.

reducir el ruido

#language

Un enfoque común para el aprendizaje autosupervisado en la que:

  1. Ruido se agrega de forma artificial al conjunto de datos.
  2. El modelo intenta quitar el ruido.

La anulación de ruido permite aprender a partir de ejemplos sin etiqueta. El conjunto de datos original funciona como destino o label y los datos ruidosos como entrada.

Algunos modelos de lenguaje enmascarado usan la reducción de ruido. de la siguiente manera:

  1. El ruido se agrega artificialmente a una oración sin etiqueta mediante el enmascaramiento de algunos de los tokens.
  2. El modelo intenta predecir los tokens originales.

instrucción directa

#language
#generativeAI

Sinónimo de instrucción sin ejemplos.

E

editar distancia

#language

Es una medida de lo semejantes que son dos cadenas de texto entre sí. En el aprendizaje automático, editar la distancia es útil porque es fácil y una forma eficaz de comparar dos cadenas conocidas similares o para encontrar cadenas que sean similares a una cadena determinada.

Hay varias definiciones de distancia de edición, cada una con una cadena diferente las operaciones. Por ejemplo, el Distancia a Levenshtein considera la menor cantidad de operaciones de eliminación, inserción y sustitución.

Por ejemplo, la distancia Levenshtein entre las palabras "corazón" y "darts" es 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en la otra:

  1. corazón → deart (sustituye “h” por “d”)
  2. deart → dart (borrar "e")
  3. dart → dardos (insert “s”)

capa de incorporación

#language
#fundamentals

Una capa oculta especial que se entrena en una atributo categórico de alta dimensión para aprender un vector de incorporación de menor dimensión. Los capa de incorporación permite que una red neuronal entrene mucho más de forma eficiente que entrenar solo con el atributo categórico de alta dimensión.

Por ejemplo, en la actualidad, la Tierra es compatible con unas 73,000 especies arbóreas. Supongamos especie de árbol es un atributo en tu modelo, por lo tanto, la capa de entrada incluye un vector one-hot 73,000 elementos largos. Por ejemplo, es posible que baobab se represente de la siguiente manera:

Un array de 73,000 elementos. Los primeros 6,232 elementos contienen el valor
     0. El siguiente elemento contiene el valor 1. Los últimos 66,767 elementos contienen
     el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación el entrenamiento le llevará mucho tiempo, ya que multiplicando 72,999 ceros. Quizás eliges la capa de incorporación para que consiste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.

En algunos casos, la generación de hash es una alternativa razonable en una capa de incorporación.

espacio de incorporaciones

#language

El espacio vectorial de d-dimensional que se muestra desde una superficie de espacio de vector están asignados. Lo ideal es que el espacio de incorporaciones contenga una una estructura que produzca resultados matemáticos significativos por ejemplo, en un espacio de incorporaciones ideal, agregar y quitar incorporaciones resolver tareas de analogía de palabras.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de incorporación

#language

En términos generales, un array de números de punto flotante tomado de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenados una capa de incorporación. Por ejemplo, imagina que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies arbóreas de la Tierra. Quizás el El siguiente array es el vector de incorporación de un árbol baobab:

Un array de 12 elementos, cada uno de los cuales contiene un número de punto flotante.
          entre 0.0 y 1.0.

Un vector de incorporación no es un montón de números aleatorios. Una capa de incorporación determina estos valores por medio del entrenamiento, similar a como mientras que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación de alguna característica de una especie arbórea. Cuál representa qué especies de árboles característica? Es muy difícil que los humanos determinarán.

La parte matemáticamente destacada de un vector de incorporación es que una representación similar los elementos tienen conjuntos similares de números de punto flotante. Por ejemplo, algo similar las especies arbóreas tienen un conjunto de números de punto flotante más parecido que especies arbóreas diferentes. Las secuoyas y las secuoyas son especies arbóreas relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante secuoyas y cocoteros. Los números en el vector de incorporación cambiar cada vez que se vuelva a entrenar el modelo, incluso si se vuelve a entrenar con entradas idénticas.

codificador

#language

En general, cualquier sistema de AA que realice conversiones desde un sistema sin procesar, disperso o externo en una representación más procesada, densa o interna.

Los codificadores suelen ser un componente de un modelo más grande y, por lo general, sincronizada con un decodificador. Algunos Transformers vincular codificadores con decodificadores, aunque otros transformadores usan solo el o solo el decodificador.

Algunos sistemas usan la salida del codificador como la entrada para un modelo de regresión global.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y devuelve un estado interno (un vector). Luego, la decoder utiliza ese estado interno para predecir la siguiente secuencia.

Consulta Transformer para conocer la definición de un codificador en la arquitectura de transformadores.

F

instrucciones con ejemplos limitados

#language
#generativeAI

Una instrucción que contiene más de un ejemplo (un "poco") Demostrar cómo el modelo de lenguaje grande debería responder. Por ejemplo, la siguiente instrucción larga contiene dos ejemplos en los que se muestra cómo responder una consulta a un modelo grande de lenguaje.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo.
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Las instrucciones con ejemplos limitados suelen producir resultados más deseables que los la instrucción sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requiere una instrucción más larga.

La instrucción con ejemplos limitados es una forma de aprendizaje en pocos ejemplos se aplican al aprendizaje basado en instrucciones.

Violín tradicional

#language

Una biblioteca de configuration centrada en Python que establece de funciones y clases sin infraestructura ni código invasivos. En el caso de Pax y otras bases de código de AA, estas funciones y Las clases representan modelos y entrenamiento. hiperparámetros.

Violín Se supone que las bases de código de aprendizaje automático suelen dividirse en los siguientes aspectos:

  • Código de biblioteca, que define las capas y los optimizadores.
  • Conjunto de datos “glue” código, que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamada del código glue en un formato forma mutable.

ajuste

#language
#image
#generativeAI

Es un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado para definir mejor sus parámetros y caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa de algunos modelos grandes de lenguaje funciona de la siguiente manera:

  1. Entrenamiento previo: Entrena un modelo grande de lenguaje en un conjunto de datos general amplio. como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos enfocados en la tarea específica.

Otro ejemplo es la secuencia de entrenamiento completa de un modelo de imagen grande sigue:

  1. Entrenamiento previo: Entrena un modelo de imagen grande en una imagen general amplia. como todas las imágenes de Wikimedia Commons.
  2. Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como generar imágenes de orcas.

El ajuste puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los modelos existentes del modelo previamente entrenado parámetros. A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) sin modificar los demás parámetros existentes (por lo general, las capas más cercana a la capa de entrada). Consulta ajuste eficiente de parámetros.
  • Agregar más capas, generalmente sobre las capas existentes más cercanas a la capa de salida.

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste podría usar una función de pérdida diferente o un modelo diferente. que los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestra la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

Lino

#language

Una plataforma de código abierto biblioteca para aprendizaje profundo basado en JAX. Flax proporciona funciones para entrenar redes neuronales, así como como métodos para evaluar su rendimiento.

Flaxformer

#language

Un Transformer de código abierto biblioteca, Creado en Flax, diseñado principalmente para procesamiento de lenguaje natural y la investigación multimodal.

G

IA generativa

#language
#image
#generativeAI

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos están de acuerdo en que los modelos de IA generativa crear (generar) contenido que tenga las siguientes características:

  • complejo
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear modelos ensayos o imágenes.

Algunas tecnologías anteriores, incluidas las LSTMs y las RNN pueden generar imágenes originales y contenido coherente. Algunos expertos consideran estas tecnologías anteriores como la IA generativa, mientras que otros creen que la verdadera IA generativa requiere que esas tecnologías anteriores pueden producir.

Compara esto con el AA predictivo.

GPT (transformador generativo previamente entrenado)

#language

Una familia de modelos basados en Transformer modelos grandes de lenguaje desarrollados por OpenAI.

Las variantes de GPT pueden aplicarse a varias modalidades, incluidas las siguientes:

  • generación de imágenes (por ejemplo, ImageGPT)
  • generación de texto a imagen (por ejemplo, DALL-E)

H

alucinación

#language

La producción de un resultado aparentemente creíble, pero incorrecto, según un de IA generativa que pretende realizar una afirmación sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirma que Barack Obama murió en 1865. es alucinante.

I

aprendizaje en contexto

#language
#generativeAI

Sinónimo de instrucción con ejemplos limitados.

L

LaMDA (modelo de lenguaje para aplicaciones de diálogo)

#language

Un modelo basado en Transformer modelo grande de lenguaje desarrollado por Google entrenado un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.

LaMDA: nuestra gran conversación tecnología proporciona una descripción general.

modelo de lenguaje

#language

Un modelo que estima la probabilidad de un token o una secuencia de tokens que ocurra en una secuencia más larga de tokens.

modelo de lenguaje extenso

#language

Término informal sin definición estricta que generalmente significa un modelo de lenguaje que tiene una gran cantidad de parámetros. Algunos modelos grandes de lenguaje contienen más de 100,000 millones de parámetros.

espacio latente

#language

Sinónimo de espacio de incorporación.

LLM

#language

Abreviatura de modelo de lenguaje grande.

Laura

#language
#generativeAI

Abreviatura de Adaptabilidad de clasificación baja.

Adaptabilidad de clasificación baja (LoRA)

#language
#generativeAI

Un algoritmo para realizar ajuste eficiente de parámetros ajusta solo un subconjunto de un parámetros de un modelo grande de lenguaje LoRA proporciona los siguientes beneficios:

  • Se ajusta más rápido que las técnicas que requieren un ajuste de todos los modelos parámetros.
  • Se reduce el costo de procesamiento de la inferencia en la más ajustado.

Un modelo ajustado con LoRA mantiene o mejora la calidad de sus predicciones.

LoRA habilita múltiples versiones especializadas de un modelo.

M

modelo de lenguaje enmascarado

#language

Un modelo de lenguaje que predice la probabilidad de tokens candidatos para completar espacios en blanco en una secuencia. Por ejemplo, un el modelo de lenguaje enmascarado puede calcular las probabilidades de las palabras candidatas. para reemplazar el subrayado en la siguiente oración:

Regresó el ____ del sombrero.

Por lo general, se usa la cadena "MASK" en lugar de un subrayado. Por ejemplo:

La MASK regresó.

La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales.

metaaprendizaje

#language

Subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también busca entrenar un modelo para aprender rápido un nuevo a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:

  • Mejorar o aprender funciones diseñadas a mano (como un inicializador o un optimizador).
  • Ser más eficientes en términos de datos y de procesamiento
  • Mejorar la generalización

El metaaprendizaje se relaciona con el aprendizaje en pocos ejemplos.

modality

#language

Es una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y el audio son cinco modalidades diferentes.

paralelismo de modelos

#language

Forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de uno model en diferentes dispositivos. Paralelismo de modelos permite modelos que son demasiado grandes para caber en un solo dispositivo.

Para implementar el paralelismo de modelos, por lo general, un sistema hace lo siguiente:

  1. Fragmenta (divide) el modelo en partes más pequeñas.
  2. Distribuye el entrenamiento de esas partes más pequeñas a través de múltiples procesadores. Cada procesador entrena su propia parte del modelo.
  3. Combina los resultados para crear un solo modelo.

El paralelismo de modelos ralentiza el entrenamiento.

Consulta también el paralelismo de datos.

autoatención de varios cabezales

#language

Es una extensión de la autoatención que aplica la mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.

Transformers introdujo la autoatención de varias cabezas.

modelo multimodal

#language

Es un modelo cuyas entradas o salidas incluyen más de una. modalidad. Por ejemplo, considera un modelo que toma y una leyenda de texto (dos modalidades) como atributos, y genera una puntuación que indica cuán apropiada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.

N

comprensión del lenguaje natural

#language

Determinar las intenciones de un usuario en función de lo que este escribió o dijo. Por ejemplo, un motor de búsqueda utiliza la comprensión del lenguaje natural para para determinar qué busca el usuario según lo que escribió o dijo.

n-grama

#seq
#language

Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Porque orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama para ir a, almorzar o cenar
3 trigrama o 3-grama comí demasiado, tres ratones ciegos, las campanas
4 4-grama el chico comía lentejas...

Muchos comprender el lenguaje natural los modelos se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá ni decir. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que la El usuario escribirá a continuación mouse.

Comparar los n-gramas con la bolsa de palabras, que es conjuntos de palabras desordenados.

CLN

#language

Abreviatura de lenguaje natural comprensión.

O

instrucciones con un solo ejemplo

#language
#generativeAI

Una instrucción que contiene un ejemplo que demuestra cómo se Debería responder el modelo grande de lenguaje. Por ejemplo: la siguiente instrucción contiene un ejemplo en el que se muestra a un modelo de lenguaje extenso cómo debería responder una consulta.

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
Francia: EUR Un ejemplo.
India: Es la consulta real.

Compara y contrasta la instrucción con un solo ejemplo con los siguientes términos:

P

ajuste eficiente de parámetros

#language
#generativeAI

Un conjunto de técnicas para ajustar una gran modelo de lenguaje previamente entrenado (PLM) de forma más eficiente que el ajuste completo. Eficaz en parámetros pero el ajuste suele ajustar muchos menos parámetros que los pero, por lo general, produce un un modelo grande de lenguaje que realice (o casi igual) como un modelo grande de lenguaje construido a partir de ajustes.

Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente en cuanto a parámetros también se conoce como ajuste eficiente de parámetros.

canalización

#language

Una forma de paralelismo de modelos en la que la latencia el procesamiento se divide en etapas consecutivas y cada una se ejecuta en otro dispositivo. Mientras una etapa procesa un lote, la anterior puede funcionar en el siguiente lote.

Consulta también el entrenamiento en etapas.

PLM

#language
#generativeAI

Abreviatura de modelo de lenguaje previamente entrenado.

codificación posicional

#language

Técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos Transformer usan codificación para comprender mejor la relación entre las diferentes partes del secuencia.

Una implementación común de codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal se determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a atender las diferentes partes del ordenada en función de su posición.

modelo previamente entrenado

#language
#image
#generativeAI

Los modelos o componentes de modelos (como un vector de incorporación) que ya se entrenaron. A veces, ingresarás vectores de incorporación previamente entrenados en un red neuronal. Otras veces, el modelo entrenará el vectores de incorporación en lugar de depender de las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo grande de lenguaje que se sometió entrenamiento previo.

entrenamiento previo

#language
#image
#generativeAI

Entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes y torpes y, por lo general, deben perfeccionarse mediante capacitación adicional. Por ejemplo, los expertos en AA pueden capacitar previamente a un un modelo grande de lenguaje en un conjunto de datos de texto amplio, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, modelo resultante podría refinarse aún más a través de cualquiera de los siguientes técnicas:

mensaje

#language
#generativeAI

Cualquier texto ingresado como entrada en un modelo de idioma grande para condicionar el modelo para que se comporte de cierta manera. Las instrucciones pueden ser tan cortas frase o arbitrariamente larga (por ejemplo, todo el texto de una novela). Mensajes se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría de instrucción Ejemplo Notas
Pregunta ¿Qué tan rápido puede volar una paloma?
Instrucción Escribe un poema divertido sobre el arbitraje. Un mensaje en el que se le pide al modelo de lenguaje extenso que haga algo.
Ejemplo Traduce código de Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista
HTML: <ul> <li>elemento de la lista</li> &lt;/ul&gt;
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol Explicar por qué se usa el descenso de gradientes en el entrenamiento del aprendizaje automático para un doctorado en Física. La primera parte de la oración es una instrucción; la frase "hasta un doctorado en física" es la parte del rol.
Entrada parcial para que se complete el modelo El primer ministro del Reino Unido vive en Una instrucción de entrada parcial puede terminar de manera abrupta (como sucede en este ejemplo). o terminar con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos...casi nada.

aprendizaje basado en instrucciones

#language
#generativeAI

Capacidad de ciertos modelos que les permite adaptarse su comportamiento en respuesta a una entrada de texto arbitraria (mensajes). En un paradigma típico de aprendizaje basado en instrucciones, un modelo de lenguaje grande responde a un mensaje que generan texto. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprender basado en instrucciones no está entrenado específicamente para responder la instrucción anterior. Más bien, el modelo “sabe” muchos datos sobre física, mucho sobre las reglas del lenguaje generales y mucho sobre lo que constituye respuestas útiles. Ese conocimiento es suficiente para proporcionar (con suerte) un recurso útil una respuesta en particular. Comentarios de personas adicionales (“Esa respuesta fue demasiado complicada” o “¿Cuál es una reacción?””) permite que algunos sistemas de aprendizaje basado en instrucciones mejorar la utilidad de sus respuestas.

diseño de mensajes

#language
#generativeAI

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language
#generativeAI

El arte de crear mensajes que generen las respuestas deseadas a partir de un modelo de lenguaje grande. Una persona realiza una instrucción con ingeniería de atributos. Escribir instrucciones bien estructuradas es esencial para garantizar respuestas útiles de un modelo de lenguaje extenso. La ingeniería de instrucciones depende de muchos factores, entre ellos:

  • Es el conjunto de datos que se usó para el entrenamiento previo y, posiblemente, ajustar el modelo grande de lenguaje.
  • La temperature y otros parámetros de decodificación que la que el modelo usa para generar respuestas.

Consulta Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.

ajuste de mensajes

#language
#generativeAI

Un mecanismo de ajuste eficiente de parámetros que aprende un “prefijo” que el sistema antepone al instrucción real.

Una variación del ajuste de instrucciones, a veces llamada ajuste de prefijo, es antepón el prefijo en cada capa. En cambio, la mayoría del ajuste de instrucciones solo Agrega un prefijo a la capa de entrada.

R

solicitud de función

#language
#generativeAI

Parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin un rol un mensaje de texto, un modelo grande de lenguaje brinda una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, se puede usar modelo puede responder de una manera que sea más apropiada y útil para un un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de Los mensajes están en negrita:

  • Resume este artículo para obtener un doctorado en economía.
  • Describir cómo funcionan las mareas para un niño de diez años.
  • Explica la crisis financiera de 2008. Habla como lo harías con un niño pequeño: o un golden retriever.

S

autoatención (también llamada capa de autoatención)

#language

Capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones de token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida Se construye integrando información de los elementos de la secuencia de entrada a través de un mecanismo de atención.

La parte self de autoatención se refiere a la secuencia que asiste a en lugar de a algún otro contexto. La autoatención es una de las principales componentes básicos para Transformers y usa la búsqueda en el diccionario y la terminología, como “consulta”, “clave” y “valor”.

Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una simple a través de la incorporación de texto. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento de toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra Incorpora las representaciones de otras palabras.

Por ejemplo, considera la siguiente oración:

El animal no cruzó la calle porque estaba demasiado cansado.

La siguiente ilustración (de Transformer: Una novedosa arquitectura de redes neuronales para el lenguaje Comprensión) muestra el patrón de atención de una capa de autoatención para el pronombre it, con la oscuridad de cada línea que indica cuánto contribuye cada palabra a la siguiente:

La siguiente oración aparece dos veces: El animal no cruzó el
          calle porque estaba demasiado cansada. Las líneas conectan el pronombre en el que
          una oración a cinco tokens (The, animal, street, it y
          el punto) en la otra oración.  La línea entre el pronombre que
          y la palabra animal es la más fuerte.

La capa de autoatención destaca las palabras que son relevantes para "ella". En este En este caso, la capa de atención aprendió a destacar palabras que podría referirnos a esto asignando el peso más alto a animal.

Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.

Consulta también la sección de atención y autoatención de varios cabezales.

análisis de opiniones

#language

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general, positiva o negativa, hacia un servicio, producto, organización o tema. Por ejemplo, comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones sobre la retroalimentación textual de un curso universitario para determinar el título de los estudiantes les gustó o disgustó el curso.

tarea de secuencia por secuencia

#language

Una tarea que convierte una secuencia de entrada de tokens en una salida secuencia de tokens. Por ejemplo, hay dos tipos populares de modelos tareas son:

  • Traductores:
    • Secuencia de entrada de muestra: "Te quiero".
    • Secuencia de salida de muestra: "Je t'aime".
  • Búsqueda de respuestas:
    • Secuencia de entrada de muestra: "¿Necesito mi auto en Nueva York?".
    • Secuencia de salida de muestra: "No. Mantén el vehículo en casa".

skip-gram

#language

Un n-grama que puede omitir (o, también, "omitir") palabras del original contextual, lo que significa que las palabras N podrían no haber sido originalmente adyacentes. Más precisamente, un "k-skip-n-gram" es un n-grama para el que pueden tener hasta k palabras se omitió.

Por ejemplo, "el ratón zorro" tiene los siguientes 2-gramas posibles:

  • "rápido"
  • “marrón rápido”
  • "fox marrón"

Un "1-omitir-2-grama" es un par de palabras que tienen 1 palabra como máximo entre ellas. Por lo tanto, "el rápido zorro marrón" tiene los siguientes 1-omiten 2-gramas:

  • "el marrón"
  • “rápido zorro”

Además, todos los 2-gramas también son 1-omiten-2-gramas, ya que menos se podrá omitir más de una palabra.

Los Omitir gramas son útiles para entender mejor el contexto circundante de una palabra. En el ejemplo, "fox" se asoció directamente con la palabra "rápido" en el conjunto de 1-skip-2-gramas, pero no en el conjunto de 2-gramos.

Los saltos gramaticales ayudan a entrenar modelos de word embedding.

ajuste de instrucciones discretas

#language
#generativeAI

Técnica para ajustar un modelo de lenguaje grande para una tarea concreta, sin que se requiera una gran cantidad de recursos ajuste. En lugar de volver a entrenar pesos en el modelo, ajuste de mensajes suaves Ajusta automáticamente una instrucción para lograr el mismo objetivo.

Dada una instrucción textual, se puede ajustar normalmente agrega incorporaciones de token adicionales al mensaje y usa propagación inversa para optimizar la entrada.

La fase "difícil" contiene tokens reales en lugar de incorporaciones de token.

atributo disperso

#language
#fundamentals

atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor 1 y un millón de valores 0 se dispersas. Por el contrario, un atributo denso tiene valores que no estén vacíos ni estén vacíos.

En el aprendizaje automático, un número sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 posibles especies de árboles en un bosque, un único ejemplo podría identificar solo un árbol de arce. O de los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".

En un modelo, normalmente representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre el la codificación one-hot para una mayor eficiencia.

representación dispersa

#language
#fundamentals

Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso

Por ejemplo, supongamos que un atributo categórico llamado species identifica las 36 las especies arbóreas de un bosque en particular. Supón además que cada example identifica solo una especie.

Podrías usar un vector one-hot para representar las especies arbóreas en cada ejemplo. Un vector one-hot contendría un único 1 (para representar la especie de árbol particular en ese ejemplo) y 35 0 (para representar la 35 especies de árboles no en ese ejemplo). La representación one-hot de maple podría verse de la siguiente manera:

Un vector en el que las posiciones 0 a 23 contienen el valor 0, posición
          24 contiene el valor 1, y las posiciones 25 a 35 tienen el valor 0.

Por otro lado, la representación dispersa simplemente identificaría la posición de la a una especie particular. Si maple está en la posición 24, entonces la representación dispersa de maple sería la siguiente:

24

Ten en cuenta que la representación dispersa es mucho más compacta que la one-hot para la representación de los datos.

entrenamiento por etapas

#language

Es una táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser ya sea para acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.

A continuación, se muestra una ilustración del enfoque de apilado progresivo:

  • La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
  • La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas. de la Etapa 1. En la etapa 3, se comienza el entrenamiento con los pesos que se aprendieron en los 6. capas ocultas de la etapa 2.

Tres etapas, que están etiquetadas como Etapa 1, Etapa 2 y Etapa 3.
          Cada etapa contiene un número diferente de capas: la etapa 1 contiene
          3 capas, la etapa 2 contiene 6 capas y la etapa 3 contiene 12 capas.
          Las 3 capas de la Etapa 1 se convierten en las primeras 3 capas de la Etapa 2.
          Del mismo modo, las 6 capas de la Etapa 2 se convierten en las primeras 6 capas de
          Etapa 3.

Consulta también la canalización.

token de subpalabra

#language

En los modelos de lenguaje, un token que es un o la subcadena de una palabra, que puede ser la palabra completa.

Por ejemplo, una palabra como "itemizar" podría dividirse en las partes “elemento” (una palabra raíz) y "ize" (un sufijo), cada uno de los cuales está representado por su propio token. Dividir palabras poco comunes en esas partes, llamadas subpalabras, permite de lenguaje extensos para operar en las partes constituyentes más comunes de la palabra, como prefijos y sufijos.

Por el contrario, las palabras comunes como "ir" pueden no estar divididas y representados por un solo token.

T

T5

#language

Un modelo de aprendizaje por transferencia de texto a texto introducido por La IA de Google en 2020. T5 es un modelo de codificador-decodificador que se basa en el una arquitectura de Transformer, entrenada con un modelo de tu conjunto de datos. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas en de una manera coloquial.

El T5 recibe su nombre de las cinco T de “Transformador de transferencia de texto a texto”.

T5X

#language

Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar procesamiento de lenguaje natural a gran escala (PLN). T5 se implementa en la base de código T5X (que es compilada en JAX y Flax).

temperatura

#language
#image
#generativeAI

Un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y las propiedades preferidas del resultado del modelo. Por ejemplo, probablemente aumente la temperatura cuando crees una aplicación que genera resultados creativos. Por el contrario, probablemente bajarías la temperatura cuando compilas un modelo que clasifica imágenes o texto para mejorar el la exactitud y coherencia del modelo.

La temperatura suele usarse con softmax.

intervalo de texto

#language

El intervalo del índice del array asociado con una subsección específica de una cadena de texto. Por ejemplo, la palabra good en la cadena s="Be good now" de Python ocupa el texto abarcan de 3 a 6.

token

#language

En un modelo de lenguaje, la unidad atómica a la que se dedica para entrenar y hacer predicciones. Por lo general, un token es uno de los lo siguiente:

  • una palabra, por ejemplo, la frase "perros como gatos" consta de tres palabras tokens: “dogs”, “like” y “cats”.
  • un carácter, por ejemplo, la frase "pez bicicleta" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
  • subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo: un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra “dogs” como dos tokens (la palabra raíz "dog" y el sufijo plural "s"). Lo mismo de lenguaje natural podrían ver la sola palabra “más alta” en dos subpalabras (el palabra raíz “tall” y el sufijo “er”).

En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.

Transformador

#language

Es una arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una de incorporaciones de entrada en una secuencia de salida de las incorporaciones sin depender de las convoluciones redes neuronales recurrentes. Un transformador puede ser como una pila de capas de autoatención.

Un Transformer puede incluir cualquiera de los siguientes elementos:

Un codificador transforma una secuencia de incorporaciones en una secuencia nueva del la misma duración. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la entrada secuencia de incorporación, transformando cada elemento de la secuencia en un nuevo a través de la incorporación de texto. La primera subcapa del codificador agrega información de todo secuencia de entrada. La segunda subcapa del codificador transforma la información en una incorporación de salida.

Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a la subcapas del codificador. La tercera subcapa del decodificador toma la salida de la y aplica el mecanismo de autoatención para recopilar información a partir de ellos.

La entrada de blog Transformer: A Novel Neural Network Architecture for Language Comprensión proporciona una buena introducción a Transformers.

trigrama

#seq
#language

n-grama en el cual n=3.

U

unidireccional

#language

Es un sistema que solo evalúa el texto que antecede a una sección objetivo del texto. Por el contrario, un sistema bidireccional evalúa tanto el texto que antecede y sigue una sección objetivo del texto. Consulta bidireccional para obtener más detalles.

modelo unidireccional de lenguaje

#language

Es un modelo de lenguaje que basa sus probabilidades solo en la Los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo bidireccional de lenguaje.

V

codificador automático variacional (VAE)

#language

Un tipo de codificador automático que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los codificadores automáticos variacionales son útiles para la IA generativa.

Los VAE se basan en la inferencia variacional, una técnica para estimar el parámetros de un modelo de probabilidad.

W

incorporación de palabras

#language

Representación de cada palabra en un conjunto de palabras dentro de vector de incorporación es decir, representar cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Palabras con similares significan representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían una cantidad relativamente similares, que serían muy diferentes de aquellas para avión, anteojos de sol y pasta dental.

Z

instrucciones sin ejemplos

#language
#generativeAI

Una instrucción que no proporcione un ejemplo de cómo quieres el modelo grande de lenguaje para que responda. Por ejemplo:

Partes de una instrucción Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que el LLM responda.
India: Es la consulta real.

El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque puede que prefieras un formato en particular.

Compara y contrasta la instrucción sin ejemplos con los siguientes términos: