DEEP LEARNING - Transformer Network
DEEP LEARNING - Transformer Network

Minicurso gratuito online
Martes 13 de septiembre de 18.30 a 21.30, hora de Buenos Aires, GMT-3

ORGANIZA: Centro de Graduados de Ingeniería de la UBA

Un transformador es un modelo de aprendizaje profundo que adopta el mecanismo de la auto-atención ponderando diferencialmente la importancia de cada parte de los datos de entrada. Se utiliza principalmente en el campo del procesamiento del lenguaje natural (NLP) y en la visión por computadora.

Al igual que las redes neuronales recurrentes (RNN), los transformadores están diseñados para manejar datos de entrada secuenciales, como el lenguaje natural, para tareas como traducción y resumen de texto. Sin embargo, a diferencia de los RNN, los transformadores no necesariamente procesan los datos en orden. Más bien, el mecanismo de atención proporciona contexto para cualquier posición en la secuencia de entrada. Por ejemplo, si los datos de entrada son una oración en lenguaje natural, el transformador no necesita procesar el comienzo de la oración antes del final. Más bien, identifica el contexto que confiere significado a cada palabra en la oración. Esta característica permite una mayor paralelización que los RNN y, por lo tanto, reduce los tiempos de entrenamiento.

Los transformadores fueron introducidos en 2017 por un equipo de Google Brain y son cada vez más el modelo de elección para los problemas de NLP, reemplazando los modelos RNN como la memoria a corto plazo (LSTM). La paralelización de entrenamiento adicional permite entrenar en conjuntos de datos más grandes de lo que antes era posible. Esto llevó al desarrollo de sistemas previamente entrenados como BERT (Representaciones de codificador bidireccional de Transformers) y GPT (Transformador preentrenado generativo), que fueron entrenados con grandes conjuntos de datos de lenguaje, como Wikipedia Corpus y Common Crawl, y pueden ser precisos si son sintonizados para una tarea específica.

Objetivos de aprendizaje

- Crear codificaciones posicionales para capturar relaciones secuenciales en los datos
- Calcular la atención personal escalada del producto escalado con incrustaciones de palabras
- Implementar masked multi-head attention
- Construir y entrenar un modelo de transformador
- Ajustar un modelo de transformador previamente entrenado para el reconocimiento de entidades nombradas
- Ajustar un modelo de transformador previamente entrenado para responder preguntas
- Implementar un modelo de QA en TensorFlow y PyTorch
- Ajustar un modelo de transformador previamente entrenado a un conjunto de datos personalizado
- Realizar respuestas a preguntas extractivas
Sign in to Google to save your progress. Learn more
Email *
Apellido *
Nombres *
Celular (Solo números) *
Localidad de residencia *
País de residencia *
Comentarios y Sugerencias
Queremos conocerte para poder ayudarte mejor
*
¿Cómo llegaste hasta acá? *
Submit
Clear form
Never submit passwords through Google Forms.
This form was created inside of Centro de Graduados de la Facultad de Ingenieria. Report Abuse