Чем трансформеры принципиально отличаются от рекуррентных моделей? *
1 punto
Obbligatorio
Зачем нужны позиционные энкодинги в трансформере? *
1 punto
Допустим, что размерность эмбеддингов трансформера равна d, а число голов attention - h. С какой размерностью эмбеддингов работает каждая голова при подсчете матрицы внимания (attention map)? *
1 punto
Хорошая ли идея обрабатывать очень длинные последовательности (>1024 токена) с помощью классического трансформера? *
1 punto
Что визуализировано на картинке ниже? *
1 punto
Что визуализировано на картинке ниже? *
1 punto
Зачем при обучении трансформера нужны attention masks? *
1 punto
Как обучается классический seq2seq трансформер? *
1 punto
Отметьте все верные утверждения о модели BERT *
2 punti
Obbligatorio
Выберите верные утверждения о задаче question answering, которая решалась на семинаре *
1 punto
Obbligatorio
Выберите верные утверждения о задаче question answering, которая решалась на семинаре *
1 punto
Obbligatorio
Invia
Cancella modulo
Non inviare mai le password tramite Moduli Google.