Ноябрьский DH хакатон 2021

JavaScript isn't enabled in your browser, so this file can't be opened. Enable and reload.

Центр цифровых гуманитарных исследований НИУ ВШЭ вновь проводит хакатон по Digital Humanities.

Мы предложим участникам несколько сценариев цифровых исследований:

Треки которые точно будут

— Дневники. У нас есть большая таблица (сотни тысяч записей) с текстами и метаданными дневников от проекта «Прожито». Самые ранние велись в XVIII веке, самые поздние — в XXI-м, но большая часть относится к XX столетию. Метаинформация включает имя автора и дату записи. Тексты записей даны в исходном и в лемматизированном виде, где слова приведены в начальную форму.

— Тексты о врачах от НИИ Здравоохранения. У нас есть огромная выгрузка сообщений москвичей из социальных медиа и онлайн-СМИ по ключевым словам, связанным с врачом (160 000+ сообщений) и медсестрой (10 000+ сообщений). А ещё выборка рисунков (не все), выгруженная c помощью авторского парсера из сети VK, связанных с данными сообщениями: врач (2000+), медсестра (1000+). Вычищены ветеринарные рисунки и рисунки 18+. Для каждого рисунка(ов) указано, с каким сообщением он(и) связан(ы).

— Законопроекты. Есть корпус принятых Госдумой в 6 и 7 созывах (т.е. с декабря 2011 года по июль 2021). Всего 4661 законопроект. К каждому законопроекту прилагается один или несколько текстов: текст при внесении, текст к первому чтению, второму, опубликованный текст.
Отклоненных или находящихся в стадии рассмотрения законопроектов в датасете нет. К текстам собраны такие метаданные как даты загрузки текстов, профильные комитеты, ответственные комитеты и прочие законотворческие нюансы.

— Открытки от Системного Блока. Есть коллекция почтовых открыток, отправленных в разные годы, отсканированная (сфотографированная) с двух сторон. Для работы будет доступно порядка 1000 открыток с расшифрованным текстом в виде строки, url для получения фотографий и метаинформации (адреса, адресаты, даты и т.д.)

— Народная история России. Данные - это собрание устных рассказов россиян про города России. Фольклористы и антропологи собрали большую базу интервью про историческую память и жизнь в российских городах, которую затем преобразовали в геоданные для визуализации на карте.
Всего в таблице с данными 7669 объектов. Каждый из них - это реальный объект, с которым связаны личные воспоминания горожан, то есть одно из важнейших мест города в восприятии его обитателей. Для каждого объекта памяти есть свои геоданные.

— Трек "компьютерное зрение". У нас есть два датасета, пока не мжжем решить, какой точно будет ("всё такое вкусное!").

Датасет "Мемы". Мы выкачали с imgflip 14 тысяч мемов с метаданными. Для каждого мема известен шаблон (например, “Нельзя просто так взять и “ или “Скрывающий боль Гарольд”), текст на конкретной картинке, а также число просмотров, комментов и голосов за каждый мем.
или
Датасет "Футболки". Кажется, что принты на футболках — тоже своего рода культурный объект, достойный исследования. Поэтому мы скачали 3000 изображений футболок из очень популярного интернет-магазина. Вместе с изображениями мы вытащили данные о популярности каждого принта (от 1 до 5 звезд).

Треки, которые возможно будут ¯ \ _ (ツ) _ / ¯:

— Фанфики. У нас есть метаданные 19,5 тыс. фанфиков с сайта fanfics me и еще 88,7 тыс. фанфиков с сайта ficbook ru. Для каждого фанфика указаны пейринги (например, “Гарри — Снейп”, или «Гермиона — Драко ”), жанр (джен, гет, слэш или фемслэш), дата публикации, а также информация о числе прочтений и комментариев к фанфику.

Консультационную поддержку командам окажут преподаватели НИУ ВШЭ и приглашенные эксперты: программисты, компьютерные лингвисты, специалисты по анализу данных. Удачные исследования будут опубликованы на сайте «Системного Блока» и в наших соцсетях, а для тех, кто выберет датасет с текстами о врачах, возможно публикация на портале НИИ Здравоохранения.

Можно участвовать командой или индивидуально — как вам комфортнее. Если у вас нет готовой команды — мы вам предложим подключиться к одной из уже сформированных команд.

Как вас зовут (имя и фамилия)? *

Где вы учитесь/работаете?

Адрес электронной почты *

Ник в Telegram *

Вы умеете программировать?

Какой язык программирования собираетесь использовать (если умеете)? *

Оцените ваше желание работать над каждой темой хакатона от 1 до 5 (где 1 - совсем не хочу, 5 — очень хочу)

Дневники

Тексты о врачах

Законопроекты

Комп зрение (мемы или принты на футболках)

Открытки

Фанфики

Народная история России

Clear selection

Обычно в наших командах на хакатоне есть как минимум три роли, какая ближе к вам?

Качественный исследователь. Понимает данные, состав корпуса, актуальные проблемы и темы.

Количественный исследователь. Программист или саентист, который может сделать что-нибудь с данными.

Специалист по визуализации. Может представить результаты в интересном виде.

Clear selection

У вас уже есть команда? Кто в ней (имя и фамилия)? *

Можно ли предложить кому-то из участников присоединиться к вашей команде? *

Нет, нам хватит.

Да, мы ищем ещё участников.

Я исследователь - одиночка, работаю один!

Откуда вы о нас узнали?

Что ждёте от хакатона?)

Спасибо! Вы восхитительны.

Очень скоро с Вами свяжутся в телеграме и добавят в чат)

Submit

Clear form

Never submit passwords through Google Forms.

This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy

Forms