Weitergehende Pläne mit KI zur Entzifferung und Vernetzung?

Liebes Team,

ich bin Informatiker von Beruf und habe selbst eine Stamm- und Ahnendatenbank mit mittlerweile 409 Personen. Der Großteil stammt noch von meinem Vater, der die Kirchenbücher noch „von Hand“, vor Ort und in Karlsruhe studiert hat.

Ich selbst setze mich zunehmend mit den Möglichkeiten der KI auseinander. Man kann LLMs (Large Language Models) auf bestimmte Daten trainieren und auch Vernetzungen zwischen ihnen erkennen.

Kirchenbücher und ihre enthaltenen Daten sind dazu prädestiniert, um mit Mustererkennung gelesen zu werden und dann vor allem dann die enthaltenen Personen über alle Bücher automatisiert zu matchen und in Zusammenhänge zu bringen.

Das würde oder wird die Ahnenforschung revolutionieren.

Ist so etwas schon geplant? Denken Sie bereits in diese Richtung? Die Scans sind nur der erste Schritt.

Viele Grüße
Johannes Güntert
 
Sinn macht so etwas m. E. nur, wenn man eine umfangreiche Quelle hat, die von ein und derselben Handschriften aufgezeichnet wurde.
In den niederländischen Staatsarchiven wurden Notariatsakten des 19. Jahrhunderts, alle in einer gleichförmigen, gut lesbaren Handschrift, mittels KI aufbereitet, so dass sie durchsucht werden können:

Bei Kirchenbüchern bin ich skeptisch. Die Handschriften varrieren sehr stark, je nach Jahrhundert, Pfarrer, Region, Sprache - selbst innerhalb eines Kirchenbuches.
Die hier dargebotenen Digitalisate sind z. T. (nicht überall!) schlecht. KI würde Buchstaben lesen, wo keine sind, sondern nur Staubkörner oder Haare. Teilweise unterscheiden sich Schrift und Hintergrund kaum: Dunkel bis schwarz. Digitalisate unscharf. Lateinische Abbreviationen werden schon von Menschen falsch gelesen, von KI erst recht.

Dann doch lieber manuell indexieren, und sei es nur einen knappen Namensindex erstellen.
 
Hi,

bevon man ein LLM darauf jagen kann was Dinge verknüpft muss erstmal der Text richtig gelesen werden, das ist die größte Hürde.

Familysearch dürfte auf diesem Gebiet mit Abstand der größte Vorreiter sein, dazu kann ich diesen Vortrag empfehlen Digitale Transformation in der Genealogie
Und auf der letzten RootsTech haben die stundenlang über irgendwelche fancy KI-Tools geredet, aber das ist halt Amerika und nicht Deutschland.

Wenn ich sehe wie schwer sich die Archive alleine mit der Digitalisierung und Onlinestellung tun, denke ich, dass da noch auf viele Jahre sehr wenig bis gar nix kommen wird. In Archiven sind in der Regel auch keine Informatiker angestellt, die solche Themen puschen könnten, dass kann nur aus der Community kommen.

Ich hatte aus dem selben Interesse auch schon probiert ein paar Teile von frei verfügbaren Kirchenbüchern mit Transkribus lesen zu lassen, das ging schon recht gut, 90-95% oder sowas ist auf jeden Fall möglich. Aber am Ende dauerte die Kontrolle und Fehlerkorrektur länger als wenn ich es selber abgeschrieben hätte. :unsure:
 
Hi,

klar, erst kommt die Entzifferung. Aber wenn ich sehe, welche Sprünge die KI monatlich macht, wird das bald gehen - denn der eigentliche Fortschritt ist nicht nur die reine Mustererkennung, sondern auch der logische Textzusammenhang und Erschließung der Lücken. Ich bin jedenfalls gespannt.
 
mit https://www.transkribus.org/de haben schon große Archive wie die Stadt Zürich ihre handschriftlichen Bestände digitalisiert.
Ich habe es einmal mit einigen meiner Kirchenbucheinträge mit transkribus versucht, auch dieses Programm muß jede Hanbdschrift erst neu lernen. Ich hätte vielleicht zum Lernen die richtige Übertragung eingeben können aber dazu fehlte mir die Zeit.
Bei jedem KI Programm mus was Handschriften anbelangt eine manuelle Fehlerkorrektur erfolgen, sonst kann das Programm nichts lernen.
Und wenn dazu Flecken auf dem Papier kommen, Durchstriche, Abkürzungen oder lateinische Floskeln wird es immer lustiger was man als Ergebnis bekommt.
 
Ich hatte aus dem selben Interesse auch schon probiert ein paar Teile von frei verfügbaren Kirchenbüchern mit Transkribus lesen zu lassen, das ging schon recht gut, 90-95% oder sowas ist auf jeden Fall möglich.

Derartige Quoten erreichen Sie aber nur mit klar strukturierten KB, mit „gut“ lesbarer Schrift.
Bei allem Anderen nicht.

Und in ernsthafter, geschichtlich fundierter Genealogie sind auch 90-95 % leider am Ziel vorbei.

Hat man eher den „Sammelansatz“ / „Namen, Daten und das wars“ - und davon „auf Knopfdruck möglichst viel“ mag das als genügend erachtet werden.
 
Hi,

klar, erst kommt die Entzifferung. Aber wenn ich sehe, welche Sprünge die KI monatlich macht, wird das bald gehen - denn der eigentliche Fortschritt ist nicht nur die reine Mustererkennung, sondern auch der logische Textzusammenhang und Erschließung der Lücken. Ich bin jedenfalls gespannt.
Das ist doch aber absurd. Man denke nur an überall vorkommende gleichnamige Personen, die gleichzeitig in einem Ort lebten, aber nicht identisch waren, oder aber an identische Personen, die je nach Pfarrer mit verschiedenen Namen bezeichnet wurden, z. B. Hans ./. Johann oder Adam ./. Erdmann oder Amadeus ./. Gottlieb usw. Oft kommt man um eine Analyse der Paten nicht umhin, und selbst dann bleiben manchmal Fragen. Die Stammbäume in Internet sind schon jetzt "voll von falschen Verknüpfungen", und auch ich habe schon Fehler gemacht.
 
Da kann ich nur zustimmen, wenn man sich auf die KI verlässt und aus Faulheit nicht alles kontrolliert bekommt man so einen Stammbaum wie bei FamilySearch wo der größe Müll drin steht, aber hauptsache viel.

Ein LLM kann vielleicht die Familien im 19.jh recht gut zusammenknüpfen aber sicher nicht aus dem 16.jh. Das sollte den Profis überlassen werden und bleibt wahrscheinlich auch noch sehr lange so, Genealogen werden nicht so schnell arbeitslos, keine Sorge.

Zur Schrifterkennung kommt es stark drauf an wie das Model trainiert wurde und gerade wenn Kurrent und Lateinische Schrift gemischt sind, sehen die Buchstaben teilweise gleich aus, sind aber trotzdem verschieden (z.B: Latein langes s und kurrent h)
Die älteren KI-Modelle, die alles nur buchstabenweise lesen werden da immer Fehler machen, so zumindest meine Erfahrung bei Transkribus.
 
Hallo alle miteinander!
Es kommt, wie Vera bereits sagte, auch immer darauf an, was ich unter Ahnenforschung verstehe.
Das lesen von Kirchenbüchern ist ja nur ein realtiv kleiner Bereich meiner Familienforschung. Und selbst da würde eine KI nicht funktionieren. Ich bin sehr viele Jahre in Kirchenbüchern mit verschiedenen Sprachen (Polnisch, Russisch, Deutsch mit allen Varianten, Englisch, Portugiesich, Niederländisch) beschäftigt gewesen. Und zwar häufig zur gleichen Zeit und nicht einfach so nacheinander. Und jeder, der dieses auch so machen musste, weiß natürlich auch, dass das Lesen und das Verstehen eines Textes häufig zwei verschiedene Dinge sind. Spontan fällt mir dazu z. B. Russich ein. Diese Begriffe bedeuten teilweise für gleich geschriebene Worte etwas völlig anderes bis bzw. ab 1917. Und nicht nur im Altrussischen war dieses der Fall.
Allerding erhebe ich auch für mich nicht den Anspruch, jeden KB Eintrag vollständig lesen zu können/müssen. Das ist für mich nur erforderlich, wenn ich mir dadurch witere Forschungen erhoffe, sprich ansonsten nicht weiter komme. Wenn ich z. B. bei einer Taufe die Eltern und Zeugen mit vollständigem Namen, Alter, Beruf und Wohnort, sowie die Daten von Geburt und Taufe und den Kindsnamen sowie die Namen der Paten lesen kann, bin ich schon zufrieden. Viel mehr Zeit muss ich für Geschichte der Orte/Länder aufbringen und das Auffinden von Informationen, wie die Menschen in den jeweiligen Zeiten gelebt haben. Welche Vorgaben, Krankheiten, Rechte und Gesetze existierten und wie ich Familienforschung so gestalten kann, dass sie nicht nur aus ein paar Zahlen und Namen besteht.
Und daher wird die Ahnen-/Familienforschung durch die KI absolut nicht revolutioniert.
Allen einen schönen sonnigen Tag,
Ursula
 
Fände ich gut. Texterkennung - auch mit vielen Fehlern - könnte schon mal eine gewisse Durchsuchbarkeit der Scans schaffen, sofern man immer beides hat. Und wen man unbedingt versteht, dass der erkannte Text nicht das Original ist und auch nicht alles gefunden wird! Trotzdem könnte man heuristisch wesentlich schneller etwas finden und dann im Scan genauer schauen.

Schick wäre in Stufe 1 schon mal KI-Bildverbesserung. Wenn der Pfarrer mit Essstäbchen auf durchscheinendem Luftpostpapier oder andersrum mit homöopathischer Tinte geschrieben hat, könnte eine KI schon mal einiges tun, um Vorder- und Rückseite auseinanderzuhalten und die Seiten in Ordnung zu bringen. Nur ein Helligkeits-/Kontrastregler hilft mitunter nur wenig.
 
Zurück
Oben