Ноябрьский DH хакатон 2021
Центр цифровых гуманитарных исследований НИУ ВШЭ вновь проводит хакатон по Digital Humanities.
Мы предложим участникам несколько сценариев цифровых исследований:
Треки которые точно будут
— Дневники. У нас есть большая таблица (сотни тысяч записей) с текстами и метаданными дневников от проекта «Прожито». Самые ранние велись в XVIII веке, самые поздние — в XXI-м, но большая часть относится к XX столетию. Метаинформация включает имя автора и дату записи. Тексты записей даны в исходном и в лемматизированном виде, где слова приведены в начальную форму.
— Тексты о врачах от НИИ Здравоохранения. У нас есть огромная выгрузка сообщений москвичей из социальных медиа и онлайн-СМИ по ключевым словам, связанным с врачом (160 000+ сообщений) и медсестрой (10 000+ сообщений). А ещё выборка рисунков (не все), выгруженная c помощью авторского парсера из сети VK, связанных с данными сообщениями: врач (2000+), медсестра (1000+). Вычищены ветеринарные рисунки и рисунки 18+. Для каждого рисунка(ов) указано, с каким сообщением он(и) связан(ы).
— Законопроекты. Есть корпус принятых Госдумой в 6 и 7 созывах (т.е. с декабря 2011 года по июль 2021). Всего 4661 законопроект. К каждому законопроекту прилагается один или несколько текстов: текст при внесении, текст к первому чтению, второму, опубликованный текст.
Отклоненных или находящихся в стадии рассмотрения законопроектов в датасете нет. К текстам собраны такие метаданные как даты загрузки текстов, профильные комитеты, ответственные комитеты и прочие законотворческие нюансы.
— Открытки от Системного Блока. Есть коллекция почтовых открыток, отправленных в разные годы, отсканированная (сфотографированная) с двух сторон. Для работы будет доступно порядка 1000 открыток с расшифрованным текстом в виде строки, url для получения фотографий и метаинформации (адреса, адресаты, даты и т.д.)
— Народная история России. Данные - это собрание устных рассказов россиян про города России. Фольклористы и антропологи собрали большую базу интервью про историческую память и жизнь в российских городах, которую затем преобразовали в геоданные для визуализации на карте.
Всего в таблице с данными 7669 объектов. Каждый из них - это реальный объект, с которым связаны личные воспоминания горожан, то есть одно из важнейших мест города в восприятии его обитателей. Для каждого объекта памяти есть свои геоданные.
— Трек "компьютерное зрение". У нас есть два датасета, пока не мжжем решить, какой точно будет ("всё такое вкусное!").
Датасет "Мемы". Мы выкачали с imgflip 14 тысяч мемов с метаданными. Для каждого мема известен шаблон (например, “Нельзя просто так взять и “ или “Скрывающий боль Гарольд”), текст на конкретной картинке, а также число просмотров, комментов и голосов за каждый мем.
или
Датасет "Футболки". Кажется, что принты на футболках — тоже своего рода культурный объект, достойный исследования. Поэтому мы скачали 3000 изображений футболок из очень популярного интернет-магазина. Вместе с изображениями мы вытащили данные о популярности каждого принта (от 1 до 5 звезд).
Треки, которые возможно будут ¯ \ _ (ツ) _ / ¯:
— Фанфики. У нас есть метаданные 19,5 тыс. фанфиков с сайта fanfics me и еще 88,7 тыс. фанфиков с сайта ficbook ru. Для каждого фанфика указаны пейринги (например, “Гарри — Снейп”, или «Гермиона — Драко ”), жанр (джен, гет, слэш или фемслэш), дата публикации, а также информация о числе прочтений и комментариев к фанфику.
Консультационную поддержку командам окажут преподаватели НИУ ВШЭ и приглашенные эксперты: программисты, компьютерные лингвисты, специалисты по анализу данных. Удачные исследования будут опубликованы на сайте «Системного Блока» и в наших соцсетях, а для тех, кто выберет датасет с текстами о врачах, возможно публикация на портале НИИ Здравоохранения.
Можно участвовать командой или индивидуально — как вам комфортнее. Если у вас нет готовой команды — мы вам предложим подключиться к одной из уже сформированных команд.