Ноябрьский DH хакатон 2021
Центр цифровых гуманитарных исследований НИУ ВШЭ вновь проводит хакатон по Digital Humanities.

Мы предложим участникам несколько сценариев цифровых исследований:

Треки которые точно будут

— Дневники. У нас есть большая таблица (сотни тысяч записей) с текстами и метаданными дневников от проекта «Прожито». Самые ранние велись в XVIII веке, самые поздние — в XXI-м, но большая часть относится к XX столетию. Метаинформация включает имя автора и дату записи. Тексты записей даны в исходном и в лемматизированном виде, где слова приведены в начальную форму.

— Тексты о врачах от НИИ Здравоохранения. У нас есть огромная  выгрузка сообщений москвичей из социальных медиа и онлайн-СМИ по ключевым словам, связанным с врачом (160 000+ сообщений) и медсестрой (10 000+ сообщений). А ещё выборка рисунков (не все), выгруженная c помощью авторского парсера из сети VK, связанных с данными сообщениями: врач (2000+), медсестра (1000+).  Вычищены ветеринарные рисунки и рисунки 18+. Для каждого рисунка(ов) указано, с каким сообщением он(и) связан(ы).


— Законопроекты. Есть корпус принятых Госдумой в 6 и 7 созывах (т.е. с декабря 2011 года по июль 2021). Всего 4661 законопроект. К каждому законопроекту прилагается один или несколько текстов: текст при внесении, текст к первому чтению, второму, опубликованный текст.
Отклоненных или находящихся в стадии рассмотрения законопроектов в датасете нет. К текстам собраны такие метаданные как даты загрузки текстов, профильные комитеты, ответственные комитеты и прочие законотворческие нюансы.


— Открытки от Системного Блока. Есть коллекция почтовых открыток, отправленных в разные годы, отсканированная (сфотографированная) с двух сторон. Для работы будет доступно порядка 1000 открыток с расшифрованным текстом в виде строки, url для получения фотографий и метаинформации (адреса, адресаты, даты и т.д.)


— Народная история России. Данные - это собрание устных рассказов россиян про города России. Фольклористы и антропологи собрали большую базу интервью про историческую память и жизнь в российских городах, которую затем преобразовали в геоданные для визуализации на карте.
Всего в таблице с данными 7669 объектов. Каждый из них - это реальный объект, с которым связаны личные воспоминания горожан, то есть одно из важнейших мест города в восприятии его обитателей. Для каждого объекта памяти есть свои геоданные.




— Трек "компьютерное зрение". У нас есть два датасета, пока не мжжем решить, какой точно будет ("всё такое вкусное!").

Датасет "Мемы". Мы выкачали с imgflip 14 тысяч мемов с метаданными. Для каждого мема известен шаблон (например, “Нельзя просто так взять и “ или “Скрывающий боль Гарольд”), текст на конкретной картинке, а также число просмотров, комментов и голосов за каждый мем.
или
Датасет "Футболки". Кажется, что принты на футболках — тоже своего рода культурный объект, достойный исследования. Поэтому мы скачали 3000 изображений футболок из очень популярного интернет-магазина. Вместе с изображениями мы вытащили данные о популярности каждого принта (от 1 до 5 звезд).


Треки, которые возможно будут ¯ \ _ (ツ) _ / ¯:

— Фанфики. У нас есть метаданные 19,5 тыс. фанфиков с сайта fanfics me и еще 88,7 тыс. фанфиков с сайта ficbook ru. Для каждого фанфика указаны пейринги (например, “Гарри — Снейп”, или «Гермиона — Драко ”), жанр (джен, гет, слэш или фемслэш), дата публикации, а также информация о числе прочтений и комментариев к фанфику.



Консультационную поддержку командам окажут преподаватели НИУ ВШЭ и приглашенные эксперты: программисты, компьютерные лингвисты, специалисты по анализу данных. Удачные исследования будут опубликованы на сайте «Системного Блока» и в наших соцсетях, а для тех, кто выберет датасет с текстами о врачах, возможно публикация на портале НИИ Здравоохранения.

Можно участвовать командой или индивидуально — как вам комфортнее. Если у вас нет готовой команды — мы вам предложим подключиться к одной из уже сформированных команд.


 
Sign in to Google to save your progress. Learn more
Как вас зовут (имя и фамилия)? *
Где вы учитесь/работаете?  
Адрес электронной почты   *
Ник в Telegram *
Вы умеете программировать?
Какой язык программирования собираетесь использовать (если умеете)? *
Оцените ваше желание работать над каждой темой хакатона от 1 до 5 (где 1 - совсем не хочу, 5 — очень хочу)
1
2
3
4
5
Дневники
Тексты о врачах
Законопроекты
Комп зрение (мемы или принты на футболках)
Открытки
Фанфики
Народная история России
Clear selection
Обычно в наших командах на хакатоне есть как минимум три роли, какая ближе к вам?      
Clear selection
У вас уже есть команда? Кто в ней (имя и фамилия)? *
Можно ли предложить кому-то из участников присоединиться к вашей команде? *
Откуда вы о нас узнали?
Что ждёте от хакатона?)
Спасибо! Вы восхитительны.
Очень скоро с Вами свяжутся в телеграме и добавят в чат)
Submit
Clear form
Never submit passwords through Google Forms.
This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy