ММОВС22. Механизм внимания и трансформеры

JavaScript isn't enabled in your browser, so this file can't be opened. Enable and reload.

В тесте встречаются задания со множественным выбором. В таких задания правильных ответов строго больше одного.

Email *

Укажите ваши ФИО *

Чем трансформеры принципиально отличаются от рекуррентных моделей?
*

1 point

Трансформеры обрабатывают последовательность параллельно, а не последовательно

Обратный проход в трансформерах осуществляется по особой схеме - backpropagation through time (BPTT)

В трансформере декодер видит закодированные векторы всех предыдущих слов, а в рекурретной сети - только предыдущего

С помощью трансформеров нельзя решать задачу авторегрессионной генерации текста

Required

Зачем нужны позиционные энкодинги в трансформере? *

1 point

Чтобы передать в модель информацию о порядке токенов в последовательности

Чтобы сделать модель более сложной

Чтобы attention матрицы считались быстрее

Чтобы передавать эмбеддинги с энкодера в декодер

Чтобы модель не переобучалась на токены из будущего

Допустим, что размерность эмбеддингов трансформера равна d, а число голов attention - h. С какой размерностью эмбеддингов работает каждая голова при подсчете матрицы внимания (attention map)? *

1 point

d / h

d * h

d - h

d^2

d^2 / h

Хорошая ли идея обрабатывать очень длинные последовательности (>1024 токена) с помощью классического трансформера? *

1 point

Нет, поскольку до последних токенов не дойдет никакой информации о первых токенах

Да, скорее всего, никаких проблем не возникнет

Нет, поскольку трансформер имеет квадратичную сложность по длине последовательности

Нет, поскольку невозможно сгенерировать так много позиционных энкодингов

Что визуализировано на картинке ниже? *

1 point

Attention map из слоя энкодера

Позиционные энкодинги

Авторегрессионная маска декодера

Padding маска

Что визуализировано на картинке ниже? *

1 point

Attention map из слоя энкодера

Позиционные энкодинги

Авторегрессионная маска декодера

Padding маска

Зачем при обучении трансформера нужны attention masks?
*

1 point

Маски не нужны, трансформеры могут работать и без них с текстами разной длины

Маски нужны, чтобы модель понимала, где реальный текст, а где pad-токены, для которых считать attention не нужно

Маски нужны, чтобы модель понимала, на какой позиции находится каждый конкретный токен (порядок слов)

Маски нужны, чтобы модель понимала, какие токены она уже видела и не пересчитывала для них attention

Как обучается классический seq2seq трансформер?
*

1 point

Эмбеддинги слов входной последовательности последовательно проходят через слои энкодера, затем последовательно через слои декодера

Эмбеддинги входной последовательности последовательно проходят через слои энкодера, затем подаются сразу во все слои декодера

Эмбеддинги входной последовательности сразу подаются во все слои энкодера, затем последовательно подаются во все слои декодера

Эмбеддинги входной последовательности сразу подаются во все слои энкодера, затем подаются сразу во все слои декодера

Отметьте все верные утверждения о модели BERT *

2 points

BERT использует ровно два вида эмбеддингов: эмбеддинги токенов и позиционные экнодинги

BERT состоит исключительно из слоев типа энкодер

При обучении BERT к началу каждой последовательности добавляется специальный <CLS> токен

BERT предсказывает последовательность авторегрессионно

Стратегия маскирования BERT предполагает замену случайного процента слов на токен маски

Если мы хотим обучить линейную голову поверх обученного BERT, то ее нужно "повесить" на выход на позиции <CLS> токена

Required

Выберите верные утверждения о задаче question answering, которая решалась на семинаре *

1 point

Датасет состоит из пар вопрос-контекст и отдельного ответа

Датасет состоит из пар вопрос-контекст и позиции ответа на вопрос в контексте

Задача сводится к решению двух задач бинарной классификации для каждого токена последовательности

Ответ на вопрос генерируется авторегрессионно

Required

Выберите верные утверждения о задаче question answering, которая решалась на семинаре
*

1 point

После того, как модель вернула логиты на инференсе, нужно декодировать предсказания, чтобы получить валидный ответ

Уверенность в ответе определяется как сумма логитов стартовой и конечной позиций

Контекст подается в BERT как первое предложение, а вопрос как второе

Контексты бывают очень длинными, поэтому каждая пара из датасета может дать нам несколько обучающих примеров

Required

Submit

Clear form

Never submit passwords through Google Forms.

This content is neither created nor endorsed by Google. - Terms of Service - Privacy Policy

Does this form look suspicious? Report

Forms