JavaScript isn't enabled in your browser, so this file can't be opened. Enable and reload.
ММОВС22. Механизм внимания и трансформеры
В тесте встречаются задания со множественным выбором. В таких задания правильных ответов строго больше одного.
Sign in to Google
to save your progress.
Learn more
* Indicates required question
Email
*
Your email
Укажите ваши ФИО
*
Your answer
Чем трансформеры принципиально отличаются от рекуррентных моделей?
*
1 point
Трансформеры обрабатывают последовательность параллельно, а не последовательно
Обратный проход в трансформерах осуществляется по особой схеме - backpropagation through time (BPTT)
В трансформере декодер видит закодированные векторы всех предыдущих слов, а в рекурретной сети - только предыдущего
С помощью трансформеров нельзя решать задачу авторегрессионной генерации текста
Required
Зачем нужны позиционные энкодинги в трансформере?
*
1 point
Чтобы передать в модель информацию о порядке токенов в последовательности
Чтобы сделать модель более сложной
Чтобы attention матрицы считались быстрее
Чтобы передавать эмбеддинги с энкодера в декодер
Чтобы модель не переобучалась на токены из будущего
Допустим, что размерность эмбеддингов трансформера равна d, а число голов attention - h. С какой размерностью эмбеддингов работает каждая голова при подсчете матрицы внимания (attention map)?
*
1 point
d
d / h
d * h
d - h
d^2
d^2 / h
Хорошая ли идея обрабатывать очень длинные последовательности (>1024 токена) с помощью классического трансформера?
*
1 point
Нет, поскольку до последних токенов не дойдет никакой информации о первых токенах
Да, скорее всего, никаких проблем не возникнет
Нет, поскольку трансформер имеет квадратичную сложность по длине последовательности
Нет, поскольку невозможно сгенерировать так много позиционных энкодингов
Что визуализировано на картинке ниже?
*
1 point
Attention map из слоя энкодера
Позиционные энкодинги
Авторегрессионная маска декодера
Padding маска
Что визуализировано на картинке ниже?
*
1 point
Attention map из слоя энкодера
Позиционные энкодинги
Авторегрессионная маска декодера
Padding маска
Зачем при обучении трансформера нужны attention masks?
*
1 point
Маски не нужны, трансформеры могут работать и без них с текстами разной длины
Маски нужны, чтобы модель понимала, где реальный текст, а где pad-токены, для которых считать attention не нужно
Маски нужны, чтобы модель понимала, на какой позиции находится каждый конкретный токен (порядок слов)
Маски нужны, чтобы модель понимала, какие токены она уже видела и не пересчитывала для них attention
Как обучается классический seq2seq трансформер?
*
1 point
Эмбеддинги слов входной последовательности последовательно проходят через слои энкодера, затем последовательно через слои декодера
Эмбеддинги входной последовательности последовательно проходят через слои энкодера, затем подаются сразу во все слои декодера
Эмбеддинги входной последовательности сразу подаются во все слои энкодера, затем последовательно подаются во все слои декодера
Эмбеддинги входной последовательности сразу подаются во все слои энкодера, затем подаются сразу во все слои декодера
Отметьте все верные утверждения о модели BERT
*
2 points
BERT использует ровно два вида эмбеддингов: эмбеддинги токенов и позиционные экнодинги
BERT состоит исключительно из слоев типа энкодер
При обучении BERT к началу каждой последовательности добавляется специальный <CLS> токен
BERT предсказывает последовательность авторегрессионно
Стратегия маскирования BERT предполагает замену случайного процента слов на токен маски
Если мы хотим обучить линейную голову поверх обученного BERT, то ее нужно "повесить" на выход на позиции <CLS> токена
Required
Выберите верные утверждения о задаче question answering, которая решалась на семинаре
*
1 point
Датасет состоит из пар вопрос-контекст и отдельного ответа
Датасет состоит из пар вопрос-контекст и позиции ответа на вопрос в контексте
Задача сводится к решению двух задач бинарной классификации для каждого токена последовательности
Ответ на вопрос генерируется авторегрессионно
Required
Выберите верные утверждения о задаче question answering, которая решалась на семинаре
*
1 point
После того, как модель вернула логиты на инференсе, нужно декодировать предсказания, чтобы получить валидный ответ
Уверенность в ответе определяется как сумма логитов стартовой и конечной позиций
Контекст подается в BERT как первое предложение, а вопрос как второе
Контексты бывают очень длинными, поэтому каждая пара из датасета может дать нам несколько обучающих примеров
Required
Submit
Clear form
Never submit passwords through Google Forms.
This content is neither created nor endorsed by Google. -
Terms of Service
-
Privacy Policy
Does this form look suspicious?
Report
Forms
Help and feedback
Help Forms improve
Report