[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

JavaScript isn't enabled in your browser, so this file can't be opened. Enable and reload.

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine große Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.
Sie arbeiten mit einem großen Korpus und wollen nicht jede Datei einzeln anfassen (Stapelverarbeitung).
Sie möchten Ihr Korpus mit quantitativen Methoden (Distant Reading) untersuchen und benötigen die einzelnen Quellen daher im Klartextformat.
Sie haben keinen Zugang zu kommerzieller Software, wie z.B. Adobe Acrobat Professional oder Abbyy FineReader.
Lernziele

In dieser Lektion werden Sie folgendes lernen:

Erkennen und Extrahieren von Texten in PDFs mit optischer Zeichenerkennung (OCR)
Eingebettete Texte aus PDFs extrahieren
Eingebettete Bilder aus PDFs extrahieren
Kombinieren Sie Bilder und PDFs in einer einzigen PDF-Datei
Führen Sie alle oben genannten Schritte auf einmal (Stapelverarbeitung) mit einem großen Korpus durch.
Analysieren Sie ein großes Korpus mit Hilfe von Topic Modelling, um einen schnellen Überblick über die darin enthaltenen Themen zu erhalten.
Voraussetzungen

Sie sollten einfache Operationen in der Befehlszeile Ihres Betriebssystems (Windows, macOS, Linux) ausführen können.
Windows Benutzer*innen sollten über Windows 10 (Fall Creators Update) verfügen und Ubuntu 20.04 LTS auf dem Windows Subsystem for Linux installiert haben.
Die verwendete Software – OCRmyPDF, Tesseract, Poppler und ImageMagick – sollte vorab gemäß dieser Anleitung installiert werden.
Der Kurs basiert auf Moritz Mähr, “Working with batches of PDF files,” The Programming Historian 9 (2020), https://doi.org/10.46430/phen0088.

Zeit und Stundenumfang:

13.7.2021 von 09:00 bis 12:00 (mit mehreren Pausen)

Format: Hands-on-Workshop

Erfahrungsstufe: Operator

Anmeldung: Bitte mit Namen und E-Mail-Adresse via https://forms.gle/e7TsDshafBprTbBA6

Kontaktadresse sowie Angabe zu allen Beteiligten des Angebots:

Moritz Mähr
ETH Zürich
Wissenschaftlicher Mitarbeiter & IT Koordinator
Institut für Geschichte
Professur für Technikgeschichte
RZ F16
Clausiusstrasse 59
CH-8092 Zürich
maehr.moritz(at)history.gess.ethz.ch
www.tg.ethz.ch/personen/details/moritz-maehr/

Name *

E-Mail-Adresse *

Kommentare

Submit

Clear form

Never submit passwords through Google Forms.

This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy

Forms