PaläontoloKI oder Was macht die KI im Kimmeridgium?

Dieses Forum dient zur Diskussion über alle auf www.steinkern.de veröffentlichten redaktionellen Berichte. Wir bitten darum, beim Starten eines Beitrags den entsprechenden Link zum Bericht zu setzen.

Moderator: Sönke

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Mittwoch 5. März 2025, 13:15

Hatte doch noch nicht ganz aufgegeben und in der Mittagspause ein LLM "qwen2.5-coder-32b-instruct", das meinem Verständnis nach für Codingaufgaben gedacht ist, aber 3-5x so groß ist wie die vorherigen LLM's, diese Frage gestellt:

Fasse bitte den Artikel über Seilacher in circa 3000 Zeichen zusammen.
################
Dolf Seilacher, ein berühmter Paläontologe und Crafoord-Preisträger aus Württemberg, wurde bereits in seiner Jugend für Fossilien begeistert. Im württembergischen Städtchen Gaildorf, in dessen Apothekerhaus seine Familie lebte, begann er im Jahrzehnt der 1930er Jahre mit Sammeln. Diese frühe Phase prägte Seilacher und blieb ihm als fundierender Baustein für sein späteres Werk. Als Professor hat er in der weiten Welt gesehen, was ihm die Möglichkeit bot, seine Heimatwissen in neuem Licht zu betrachten und neue Eindrücke aus dem Fremden mit seiner Heimat zu vergleichen.

Seilacher verkörperte diese Erfahrung als Metapher: das Standbein auf dem heimatlichen Boden und das Spielbein in der großen Welt. Eine kleine Sonderausstellung mit Fundstücken aus Seilachers Jugendsammlung war ab Ende Januar 2018 im Muschelkalkmuseum Hagdorn in Ingelfingen zu sehen, und einige Stücke sind auch ins Stadtmuseum in Gaildorf gelangt. Bereits 1951 überreichte er wichtige Belegmaterial dem Museum für Naturkunde in Stuttgart.

Ein Teil der Jugendsammlung wurde von den Seilacher-Häusern bewahrt und später im Muschelkalkmuseum Ingelfingen aufbewahrt, was auch Zugang zu Bildmaterial und wertvollen Informationen über Seilachers Leben und Werk ermöglichte. Sein Werk hat sich als einzigartig erwiesen: die filigranen Skelette der fossilen Organismen, die er untersuchte, haben nicht nur wissenschaftliche Bedeutung, sondern auch ästhetischen Reiz.

Die Sammlung von Seilacher aus seiner Jugend wurde lange im Steinkämmerle seines Elternhauses aufbewahrt. Erst nach Jahrzehnten wurden diese historischen Artefakte öffentlich gemacht und inspirierten weitere Forschungen. Dolf Seilachers Leben und Werk beeinflussten zahlreiche Paläontologen, und seine Arbeiten sind heute noch immer relevant für die moderne Paleobiologie.

Literatur:
- Briggs, D. E. G. (Hrsg.) (2005): Evolving Form and Function: Fossils and Development. Proceedings of a symposium honoring Adolf Seilacher for his contribution to paleontology, in celebration of his 80th birthday. Special Publication Peabody Museum of Natural History Yale University: 288 S.; New Haven.
- Hagdorn, H. (1993): Adolf Seilacher, Paläontologe und Crafoord-Preisträger 1992. Fossilien 10 (2): 121–123.
- Hagdorn, H. (2014): Adolf Seilacher 1925–2014. Jh. Ges. Naturk. Württemberg, 170 (1): 451–472.
- Hagdorn, H. (2015): Berühmte Paläontologen: Adolf Seilacher. Fossilien 32 (1): 40–43.
- Lang, M. (o. J.): Leben und Werk des großen südthüringischen Heimatforschers Dr. med. Dr. rer. nat. h. c. Hugo Rühle von Lilienstern (1882–1946). In: Werneburg, R. (Hrsg.): In Memoriam Hugo Rühle von Lilienstern 1882–1946: 16–36. Freundeskreis Bedheim.
- Pemberton, S. G., M. K. Gingras, L. A. Buatois & J. A. Mac Eachern (2016): Curious mind: A celebration of the extraordinary life and ichnological contributions of Adolf “Dolf” Seilacher (1925–2014). Ichnos 23: 1–24.

Diese Zusammenfassung verwendet die Informationen aus den vorgegebenen Zitaten und ergänzt sie mit zusätzlichen Details, um eine kohärente Darstellung des Lebens und Werkes von Dolf Seilacher zu erstellen.

################




Auch dieses Sprachmodell kommt mit der PDF-Struktur nicht klar. Allerdings scheint es die passenden Stellen zu finden, wenn man danach fragt:

Fasse den Artikel über die Felsentürme von Montserrat in circa 700 Zeichen zusammen.
################
Der Montserrat ist ein 1200 m hoher Gebirgsstock in Katalonien, bekannt für seine scharfen Felsentürme und den Benediktinerkloster. Die Silhouette gleicht den Zähnen einer Säge, was die Bezeichnung „gesägter Berg“ erklärt. Entstehung der Felsnadeln erfolgt durch Ausbildung eines Kluftnetzes durch Wasser und Verwitterung. In der Nähe der Felstürme besteht eine Steinschlag- und Bergsturzgefahr, insbesondere nach Niederschlägen. Der Montserrat wurde 1987 zum Regionalen Naturpark und 2016 zum UNESCO-Geopark erklart. Der Zugang erfolgt über Zahnradbahn, Auto oder Panoramastraße. Die Klosteranlage enthält ein Museum und eine Aula de Natura.
################




Und dann eine Aufgabenstellung mit dem es wieder nicht gut klargekommen ist:
Erstelle eine Liste aller Fundstellen dieses Dokuments mit der Aufstellung in dieser Form: Name der Fundstelle, Ort der Fundstelle, Fossilinhalt der Fundstelle, geologische Zeitalter der Fundstelle, Name der Fundschicht.
################
Basierend auf den bereitgestellten Zitate konnten zwei spezifische Fundstellen identifiziert werden:

1. **Name der Fundstelle:** Gruben „Eisenlöcher“ und „Erzgruben“
**Ort der Fundstelle:** Aufberg, oberhalb Salmendingen/Ringingen
**Fossilinhalt der Fundstelle:** Säugetierfossile, darunter Zähne von Menschenaffen, eozänes Alter, Miozän, Eozän, Kleinfossilien
**Geologische Zeitalter der Fundstelle:** Vormiozän, Miozän, Eozän
**Name der Fundschicht:** Nicht spezifiziert

Es ist wichtig zu beachten, dass die genaue Aufstellung der Fundschichten nicht in den bereitgestellten Zitaten erwähnt wurde. Die Informationen basieren auf dem verfügbaren Text und stellen eine zusammengefasste Darstellung der im Dokument erwähnten Fundorte dar.

Zusätzlich wird in Citation 1 erwähnt, dass Dolf Seilacher in verschiedenen Gebieten der Welt Forschungen durchführte, aber spezifische Fundstellen oder -schichten werden dort nicht genannt. Die Zitate 2 und 3 beziehen sich auf andere geologische und paläontologische Themen und Fundstellen weltweit, die nicht direkt mit den im ersten Zitat erwähnten Fundorten verbunden sind.

################


Ich bin leider nicht dazu gekommen die erstellten Inhalte gegenzuprüfen.
Zuletzt geändert von bifer am Mittwoch 5. März 2025, 17:47, insgesamt 1-mal geändert.

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Mittwoch 5. März 2025, 14:31

Spannend war durch die Größe des LLM, das nicht in eine GPU passte, der Geschwindigkeitsverlust. Die Antwort wurde von der KI getippt, wie ein Tastaturanfänger mit 2-Finger-Adler-Suchsystem.

Ich hatte das Modell auf einem Rechner mit 128 GB RAM und mit zwei Nvidia GPU's ausgeführt. Eine Quadro P4000 und eine GeForce RTX 2080 TI. Die erste 8 GB Video-RAM, die zweite 11 GB Video-RAM.

Quadro P4000 ist für die Anzeige verantwortlich und war fast dauerhaft auf 40 % ausgelastet (normal im Leerlauf 1-2%, unter Last bei meinen anderen Anwendungen vielleicht 10-15%), die Geforce RTX 2080TI ging rauf und runter, Peak bis 100% dann langsam abflachen bis 0% und dann wieder von vorne, das war wie ein Sägezahn. Das ganze war wohl das ominöse GPU-Offloading. Der Rechner hat normalerweise 10 GB Speicherverbrauch. Mit geladenem Modell war er bei 34 GB. Die CPU war zwischen 40-50% ausgelastet.

Ich hatte dem Modell auch zwei Coding-Probleme zu meiner Fossiliensammlerdatenbank gestellt. Die Antwort war ausführlicher als beim Copiloten, das ich weiter oben als Beispiel zeigte.
Zuletzt geändert von bifer am Mittwoch 5. März 2025, 21:06, insgesamt 1-mal geändert.

Benutzeravatar
reinhardt
Mitglied
Beiträge: 3324
Registriert: Freitag 27. Januar 2006, 09:01

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von reinhardt » Mittwoch 5. März 2025, 19:22

Hallo,

leider habe ich kaum Zeit hier reinzuschauen finde es aber sehr interessant was Du Dir da alles antust ;)
Hast Du schon mal den MS Copilot verwendet, evtl. im direkten Vergleich zu Adobe?

Ich stimme Dir übrigens zu bzgl. der Anbieter und der zu analysierenden Daten :bg:

Grüsse

Edit : sorry den Copiloten hattest du ja schon erwähnt.
Zuletzt geändert von reinhardt am Freitag 7. März 2025, 15:08, insgesamt 1-mal geändert.

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Mittwoch 5. März 2025, 21:05

Hallo Reinhardt,

Hatte ich versucht, aber der Copilot kann nur Bilder verwenden und keine PDF's. Ich hatte vorhin die 1-monatige Testlizenz gestartet. Das ist eine Sackgasse.

Ich habe aber mit meinem langsamen lokalen LLM "qwen2.5-coder-32b-instruct" weiterexperimentiert. Das ist nicht ganz unbrauchbar. Leider begrenzt die GUI LM Studio die Möglichkeiten. Das kann am unterliegenden Framework liegen. Es sucht sich aus jedem Dokument nur drei "Citations" (was auch immer das heißen mag) pro Anfrage heraus und lässt diese vom LLM bearbeiten. Es kann sein, dass es damit völlig daneben liegt.



Ich habe mir gerade eben einen Spass erlaubt und das PDF Fossilien 1 / 2019 hochgeladen und dann die KI aufgefordert:

Erstelle mir eine fantastische Kurzgeschichte mit 3000 Zeichen aus dem Dokument.

Natürlich! Hier ist eine kurze Geschichte basierend auf den bereitgestellten Zitaten, die 3000 Zeichen umfasst:

---

**Titel: Das Geheimnis des Haselgebirges**

In der morgendlichen Morgennebel war Dr. Elina Müller schon lange am Grabungsplatz in Hallstatt. Als Archäologin und Paläontologin hatte sie eine Leidenschaft für alte Schätze und erstaunliche Fundstellen. Heute beschäftigte sie sich mit einem mystischen Gebirge, das die Bewohner des Ortes einfach „Haselgebirge“ nannten.

„Das Haselgebirge ist kein echtes Gebirge“, sagte der lokale Bergmann Werner, als Elina ihn nach einer Fundstelle fragte. „Es ist eine bergmännische Bezeichnung für ein brekziöses Mischgestein aus Gips, Anhydrit, Sandstein, Tonstein, Steinsalz und anderen Salzen. Es tritt nur vereinzelt zu Tage, wo die Heraushebung rascher erfolgte als die Ablaugung.“ Werner deutete auf eine breite Schicht von Farben gemischten Gesteinen hinunter.

Elina nickte nachdenklich. „Und was hat das mit Fossilien zu tun?“

„Viele Fundstellen mit Geschiebefossilien liegen hier in der Nähe“, erklärte Werner. „Geschoben von den skandinavischen Gletschern, gelangen sie an die Küsten und in Kiesgruben.“

Elina war fasziniert. Sie hatte immer geahnt, dass das Haselgebirge mehr zu bieten hatte als bloßes Salz. Sie gräbte weiter, ihre Spaten schnitten durch Schichten von Gips und Anhydrit. Plötzlich stieß sie auf etwas Härteres – ein Stück Steinsalzes.

„Hier ist der Kern des Ganzen!“ rief Werner aus. „Schon die Kelten betrieben einen Bergbau hier, was sogar einer ganzen Kulturzeit den Namen gab: die Hallstatt-Zeit.“

Elina nickte und begann sorgfältig um das Salzstück herum zu graben. Nach einigen Minuten entdeckte sie etwas Ungeordnetes – eine Art Schablone oder Modell aus hartem Ton.

„Das ist unglaublich!“ rief sie aufgeregt. „Ein archäologisches Artefakt, das hier gefunden wurde.“

Sie führte Werner zu einem großen Steinblock im Zentrum des Grabungsplatzes. Auf der einen Seite war ein Relief eingeritzt – eine Szene aus der Hallstatt-Zeit mit Menschen, die Salz abbauten.

„Das ist ein Fund von historischem Wert!“ sagte Elina begeistert. „Ein Zeugnis der Kultur und Traditionen dieser Zeit.“

Werner nickte. „Und da draußen“, zeigte er auf eine breite Schicht von Gesteinen, „gibt es noch mehr Fossilien. Geschiebefossilien aller Erdzeitalter liegen hier in der Nähe.“

Elina beschloss, die Fundstelle weiter auszubauen. Sie entdeckte Skelette von Dinosauriern, Muscheln und andere fossile Spezimen. „Das Haselgebirge ist eine wahre Schatzkammer“, flüsterte sie.

Nach Tagen intensiver Arbeit hatte Elina ein riesiges Museum aufgebaut, das voller Fundstellen war. Sie nannte es das „Museum der Hallstatt-Zeit“. Das Publikum wurde fasziniert von den archäologischen und paläontologischen Schätzen.

Elina legte einen Steinblock in den Mittelpunkt des Museums. Auf ihm stand die Inschrift: „Das Geheimnis des Haselgebirges ist entdeckt – ein Zeugnis der Kultur und Geschichte dieser Zeit.“

---

Diese kurze Geschichte basiert auf den Informationen aus den bereitgestellten Zitaten und erzählt eine faszinierende Geschichte um das Haselgebirge in Hallstatt.




Völlig sinnbefreit, aber ich wollt es ja "fantastisch"!
Zuletzt geändert von bifer am Donnerstag 6. März 2025, 08:17, insgesamt 1-mal geändert.

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Mittwoch 5. März 2025, 21:45

bifer hat geschrieben:
Mittwoch 5. März 2025, 13:15
....

Und dann eine Aufgabenstellung mit dem es wieder nicht gut klargekommen ist:
Erstelle eine Liste aller Fundstellen dieses Dokuments mit der Aufstellung in dieser Form: Name der Fundstelle, Ort der Fundstelle, Fossilinhalt der Fundstelle, geologische Zeitalter der Fundstelle, Name der Fundschicht.
################
Basierend auf den bereitgestellten Zitate konnten zwei spezifische Fundstellen identifiziert werden:

1. **Name der Fundstelle:** Gruben „Eisenlöcher“ und „Erzgruben“
**Ort der Fundstelle:** Aufberg, oberhalb Salmendingen/Ringingen
**Fossilinhalt der Fundstelle:** Säugetierfossile, darunter Zähne von Menschenaffen, eozänes Alter, Miozän, Eozän, Kleinfossilien
**Geologische Zeitalter der Fundstelle:** Vormiozän, Miozän, Eozän
**Name der Fundschicht:** Nicht spezifiziert

Es ist wichtig zu beachten, dass die genaue Aufstellung der Fundschichten nicht in den bereitgestellten Zitaten erwähnt wurde. Die Informationen basieren auf dem verfügbaren Text und stellen eine zusammengefasste Darstellung der im Dokument erwähnten Fundorte dar.

Zusätzlich wird in Citation 1 erwähnt, dass Dolf Seilacher in verschiedenen Gebieten der Welt Forschungen durchführte, aber spezifische Fundstellen oder -schichten werden dort nicht genannt. Die Zitate 2 und 3 beziehen sich auf andere geologische und paläontologische Themen und Fundstellen weltweit, die nicht direkt mit den im ersten Zitat erwähnten Fundorten verbunden sind.

################


Übrigens, heute hatte ich wieder Abfragen in der unangemeldeten Version von Adobe frei. Daher stellte ich die gleiche Frage, die ich gestern meinem lokalen LLM stellte, heute dem von Adobe. Hier ist das Resultat:

################
Fundstelle: Montserrat
Ort: Katalonien, Spanien ​
Fossilinhalt: Keine spezifischen Fossilien erwähnt
Geologisches Zeitalter: Paläozoikum bis Oligozän
Fundschicht: Verschiedene Konglomeratlagen (A–H) ​


Fundstelle: Volterra
Ort: Toskana, Italien ​
Fossilinhalt: Keine spezifischen Fossilien erwähnt
Geologisches Zeitalter: Messinium (spätes Miozän)
Fundschicht: Evaporitische Gesteine (Gips und Steinsalz) ​


Fundstelle: Schwäbische Alb ​
Ort: Kornbühl, Deutschland ​
Fossilinhalt: Vererzte Fossilien (Ammoniten, Brachiopoden, Seeigel, Korallen) ​
Geologisches Zeitalter: Weißjura (Oberjura)
Fundschicht: Wohlgeschichtete Kalke, Lacunosamergel-Formation


Fundstelle: Sengenthal ​
Ort: Oberpfalz, Deutschland ​
Fossilinhalt: Baumfarnstamm (Cyathocaulis bolteri) ​
Geologisches Zeitalter: Mitteljura (Unter-Bathonium)
Fundschicht: Sengenthal-Formation, Zigzag-Zone


Fundstelle: Allons
Ort: Provence, Frankreich
Fossilinhalt: Kleinfossilien (Crinoiden, Foraminiferen, Korallen) ​
Geologisches Zeitalter: Eozän ​
Fundschicht: Bartonium, Priabonium


Fundstelle: Buttenheim
Ort: Bayern, Deutschland
Fossilinhalt: Lebensspuren (Podichnus, Bactryllium) ​
Geologisches Zeitalter: Ober-Pliensbachium
Fundschicht: Amaltheenton, Apyrenum-Subzone ​


Fundstelle: Gaildorf
Ort: Baden-Württemberg, Deutschland ​
Fossilinhalt: Wirbeltierreste (Haifischzähne, Schmelzschupper)
Geologisches Zeitalter: Mittelkeuper
Fundschicht: Acrodusbank, Oberer Gipskeuper, Grabfeld-Formation ​

################


Die Unterschiede sind einfach riesig. Aber das ist auch kein Wunder, bei Azure läuft ein Supercomputer mit gigantischem Energieverbrauch, hier bei mir ein Spielzeug mit hohem Energieverbrauch ...

Benutzeravatar
reinhardt
Mitglied
Beiträge: 3324
Registriert: Freitag 27. Januar 2006, 09:01

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von reinhardt » Mittwoch 5. März 2025, 21:56

Hallo,

bist Du Dir da sicher?
bifer hat geschrieben:
Mittwoch 5. März 2025, 21:05
Hatte ich versucht, aber der Copilot kann nur Bilder verwenden und keine PDF's.
Ich habe das, wenn auch nur kurz,probiert, ein Upload war nicht möglich da der "Button" dafür fehlt.
Nach kurzer dbzgl. Unterhaltung mit dem Copilot habe ich dann den Text kopiert und ich das Textfenster eingesetzt.
Dazu konnte ich dann Aufgaben vergeben.

Aber wie gesagt alles nur ganz kurz malangespielt.

Grüsse

PS : denke bzgl. Energieverbrauch an die Umwelt :lol:

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Mittwoch 5. März 2025, 22:48

Copilot erlaubt nur knapp über 10000 Zeichen Texteingabe. Das hatte ich nach den versuchten Text-Upload probiert.

Ja, das mit dem hohen Energieverbrauch einer KI hatte ich zuvor in einem andren Thread schon erwähnt. :?
Zuletzt geändert von bifer am Donnerstag 6. März 2025, 17:03, insgesamt 1-mal geändert.

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Donnerstag 6. März 2025, 17:03

ChatGPT kann mit den PDF's gut umgehen, auch meine Eigenscans kann es gut lesen, obwohl dort sehr, sehr viele Texterkennungsfehler drin sind..

Schauen wir einmal, ob man diese LLM's zukünftig auch nur mit "auf die Dauer hilft nur Power" verbessert werden können oder ob man Mittel und Wege findet den Energieverbrauch drastisch zu senken. Dann wären die Chancen gut, dass man in 3-4 Jahren vergleichbare der heutigen Cloud-LLM's auf Heimhardware laufen lassen kann. Wenn nicht, dann ist der Energieverbrauch dieser KI's auf die Dauer absolut fatal.

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Donnerstag 6. März 2025, 18:49

Übrigens, ich habe gerade bei ChatGPT erfahren, wie die KI die PDF's verarbeitet:
1. eingebetteten Text verwenden
2. wenn kein Text vorhanden ist und nur gescannter Texxt oder wie ChatGPT sagte: "... eine feherhafte oder minderwertige OCR verwendet wurde", dann macht ChatGPT eine eigene verbesserte Texterkennung

Das macht ChatGPT:

Code: Alles auswählen

import pytesseract
from pdf2image import convert_from_path

# Pfad zur hochgeladenen Datei
pdf_path = "/mnt/data/Fossilien 1990_2 - 7. Jahrgang Reportage aus dem Miozän, Geschiebefossilien aus Schleswig-Holstein, Oligozän in Ostjütland, Die Cetiosaurier.pdf"

# PDF in Bilder umwandeln
images = convert_from_path(pdf_path, dpi=300)

# OCR auf jedem Bild durchführen und Text sammeln
ocr_text = ""
for img in images:
    ocr_text += pytesseract.image_to_string(img, lang="deu") + "\n\n"

# Speichern des vollständigen Textes für den Nutzer
ocr_text_path = "/mnt/data/ocr_extracted_text.txt"
with open(ocr_text_path, "w", encoding="utf-8") as f:
    f.write(ocr_text)

# Bereitstellung des extrahierten Textes als Download-Link
ocr_text_path


Ein Wermutstropfen gibt es. Während der Texterkennung wird die Verbindung bereits 2x zurückgesetzt. Es hat nicht funktioniert. Ich vermute das PDF mit 100 MB ist einfach zu groß und es gibt einen Timeout für meine Verbindung.


Ich habe dem ChatGPT meinen extrahierten OCR text als Textfile gegeben und bitte nun den zu korrigieren, aber auch da wird die Verbindung zurückgesetzt.

Code: Alles auswählen

import re

# Datei einlesen
txt_path = "/mnt/data/Fossilien 1990_2 - 7. Jahrgang Reportage aus dem Miozän, Geschiebefossilien aus Schleswig-Holstein, Oligozän in Ostjütland, Die Cetiosaurier.txt"

with open(txt_path, "r", encoding="utf-8") as file:
    raw_text = file.read()

# Grobe Korrekturen von OCR-Fehlern
corrected_text = raw_text

# Häufige OCR-Fehler beheben
corrections = {
    r"([a-z])—([a-z])": r"\1-\2",  # Falsche Trennung
    r"—": r"-",  # Ersetzen langer Gedankenstriche
    r"(\d)[_,](\d)": r"\1.\2",  # Fehlerhafte Dezimaltrennzeichen
    r"\bi11\b": "in",  # OCR-Verwechslung von "in"
    r"\bV\/\b": "W",  # OCR-Verwechslung von "W"
    r"\bO0\b": "00",  # OCR-Zahlenkorrektur
    r"\bF0SS1L1EN\b": "FOSSILIEN",  # Falsch erkannte Wörter korrigieren
    r"\bJahrgang\b": "Jahrgang",  # Wiederherstellen von deutschen Wörtern
    r"\bHeft\b": "Heft",
    r"\bMiozän\b": "Miozän",
    r"\bFossilien\b": "Fossilien",
    r"\bGeschiebefossilien\b": "Geschiebefossilien",
}

# Korrekturen im Text durchführen
for pattern, replacement in corrections.items():
    corrected_text = re.sub(pattern, replacement, corrected_text)

# Speichern des bereinigten Textes
clean_txt_path = "/mnt/data/cleaned_fossilien_text.txt"
with open(clean_txt_path, "w", encoding="utf-8") as file:
    file.write(corrected_text)

# Pfad zur bereinigten Datei zurückgeben
clean_txt_path

Habe nach den Gründen gefragt:

Warum werden die Verbindungen ständig zurückgesetzt? Was ist der Grund dafür?

ChatGPT:
Die Verbindungsabbrüche und das Zurücksetzen des Zustands können verschiedene Ursachen haben, darunter:
  • Sitzungstimeout – Wenn eine Sitzung zu lange inaktiv ist, kann sie automatisch zurückgesetzt werden.
  • Server-seitige Neustarts – Mein System wird regelmäßig gewartet oder aktualisiert, was manchmal zu Verbindungsabbrüchen führt.
  • Speicher- oder Rechenlast – Besonders große oder rechenintensive Aufgaben (z. B. OCR auf vielen Seiten) können das System überlasten und eine automatische Zurücksetzung auslösen.
  • Dateiverarbeitungslimits – Beim Hochladen und Bearbeiten großer Dateien können technische Einschränkungen dazu führen, dass eine Sitzung abgebrochen wird.

Um das Problem zu umgehen, empfehle ich:

Dateien erneut hochzuladen, wenn sie verloren gehen.
Schrittweise Verarbeitung, anstatt eine sehr große Datei auf einmal zu analysieren.
Falls möglich, Zwischenspeichern von Ergebnissen, damit nicht alles erneut berechnet werden muss.
Falls du eine größere Menge an Text hast, kann ich versuchen, ihn in mehreren Schritten zu bearbeiten, damit die Verarbeitung stabiler bleibt. 😊

Benutzeravatar
danylo
Redakteur
Beiträge: 669
Registriert: Samstag 18. April 2009, 22:59
Wohnort: 85551 Kirchheim

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von danylo » Donnerstag 6. März 2025, 20:35

Lieber Andreas und lieber Reinhardt,

das ist hier offensichtlich eine one- oder maximal two-men-show geworden -
nicht etwa, weil das Thema unwichtig wäre, sondern - hier schließe ich von mir auf andere - weil die meisten von uns Normalsterblichen mit dieser Materie hoffnungslos überfordert sind.
Als Kinder- und Jugendarzt im Ruhestand kann ich nur meinen ehrlichen Wunsch für Euch beitragen: Bleibt gesund! Bei dem ganzen Wahnsinn...
Persönlich fühle ich mich da eher wie der Protagonist in "Jurassic Park", Dr. Alan Grant, bei dem die Monitore Bildstörung bekamen, wenn er sie nur berührte...
Also: Danke für Eure Pionierarbeit, bleibt gsund, viel Glück, so lange es Euch Spaß macht, Scheitern ist keine Schande, und für mich selbst kann ich nur in Pokersprache sprechen: Ich bin raus... Von Anfang an... In Ermangelung geeigneter skills...
...reich ist, wer zufrieden ist mit dem, was er hat!

Liebe Grüße, Danylo

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Freitag 7. März 2025, 12:47

Wir haben hier schon noch etliche IT'ler und Softwareentwickler unter den Nutzern des Steinkern. Ich hatte gehofft, dass es ein paar Nutzer gibt, die schon tiefer eingestiegen sind, weil sie das auch für die tägliche Arbeit brauchen und wir herausfinden können, ob uns das als Sammler von Nutzen ist.

Wobei man hier klar sagen muß, dass z.B. wer diese Public KI's für das kommerzielle Coding verwendet, bereits dem Problem des Urheberrechts ausgesetzt sein kann, da die KI's beim Antrainieren womöglich geschützten Code gesehen haben.

Bei den ganzen Versuchen hier habe ich z.B. festgestellt, dass das OCR meiner eigenen PDF's absoluter Müll ist. Erstellt waren die mit VueScan, das ein eingebautes OCR hat. Allerdings waren die Ergebnisse (rot) sehr schlecht. Vuescan kam nicht klar mit Spalten und hat auch eine schlechte Zeichenerkennung.

Ich habe daher versucht herauszufinden was ChatGPT verwendet, um meine hochgeladenen PDF's zu verarbeiten. Und es hat sich herausgestellt, dass es die OpenSource-Software Tesseract verwendet. Mit weiteren KI-Abfragen habe ich mir Powershellskripte erstellen lassen, die automatisch meine bestehende Orderstruktur durchgeht, PDF's sucht, bestimmte Verzeichnisse ausspart und eine neue Texterkennung durchführt und die so neue erstellten PDF's mit eingebetteten Text an einem neuen Ort speichern. Dazu war zwar die Installation weiterer Software nötig, aber das war auch mit KI-Hilfe machbar.

Das Ergebnis (blau) läßt sich sehen. Ich hätte das Skript nie selbst hinbekommen.

Beispiel aus Fossilien 1 / 1985:
Mein erster Scan mit Vuescan:
13.10. Mineralienausstellung. ÖZ 1fP17 7./8.12. Internat. Mineralien-
Gasthaus Glockenturm, Lienz, und Fossilienbörse. ZollernalbÖsterreieh.
ÖZ ohne Angaben 17.11. NAOM-Börse (Fossilien halle, Tailngen (Albstadt).
u. Mineralien). Mehrzweckhalle, ÖZ Sa 10-18, So 10-17
13.10. Mineralien- und Fossilien- Schaafheim/Moosbach bei
börse. Stadthalle (Rosental), Darmstadt. ÖZ 9-17 8.12. Fossilien- und Mineralien-
Detmold. ÖZ 11-18 schau. Stadthalle, Ratingen.
24.11. Mineralien- und Fossilien- ÖZ 10-17
19./20.10. Mineralientage. Au- börse. Freizeit- und Bürgerzengustanasaal
am Königsplatz, trum, Nimesstr. 2, Braun- 15.12. Mineralienborse. Aula der
Augsburg. ÖZ 10-17 schweig. ÖZ 10-17 Realschule, Schafhausener Str.,


Neue Texterkennung mit Tesseract / OCRmyPDF-Kombination:
13.10. Mineralienausstellung.
Gasthaus Glockenturm, Lienz,
Österreich. OZ ohne Angaben
13.10. Mineralien- und Fossilienbörse.
Stadthalle (Rosental),
Detmold. ÖZ 11-18
19./20.10. Mineralientage. Augustanasaal
am Königsplatz,
Augsburg. OZ 10-17




KI ist einfach Fluch und Segen gleichzeitig.
Dateianhänge
Texterkennungsfehler.jpg
rot alte Texterkennung sehr fehlerhaft; blau neue Texterkennung, um einiges besser.
Texterkennungsfehler.jpg (1.43 MiB) 54950 mal betrachtet

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Samstag 8. März 2025, 09:03

Um das ganze Zwischendurch auf ein Paläontologisches Niveau zu heben, hier eine Zusammenfassung von "KI-Forschungen" in der Paläontologie.

https://www.researchgate.net/publicatio ... leontology

Und die meiste Forschung dazu passiert in China. Laut diesem Autor sind manche Antworten eines der vorgestellten LLM staatlich zensiert: https://geoscientist.online/sections/vi ... in-crisis/

Und ein Prof. der Paläontologie, der ähnliche Dinge wie ich hier versuchte und auch manche der Themen, wie die PDF'S ansprach: https://peterfalkingham.com/2024/04/26/ ... ocal-data/

Benutzeravatar
bifer
Mitglied
Beiträge: 1982
Registriert: Mittwoch 6. Juli 2005, 12:33

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von bifer » Freitag 14. März 2025, 13:05

Was ich inzwischen gelernt habe ...

Mein Sprachmodell hat einen Kontext von 8192 Token. Ein Token dabei ist manchmal ein Wort, manchmal ein halbes Wort oder Zeichen. Der Kontext ist alles zwischen dem Stellen der Frage (die eigentliche Frage und hochgeladener Dokumente) und der Ausgabe. Es geht aber weiter, wenn man basierend auf der Antwort eine weitere Frage stellt, dann werden weitere Token verwendet, genauso "verbraucht" die neue Ausgabe Token.

Erreicht man nun die Kontextgrenze von 8192 Token, wie in dem von mir verwendeten Sprachmodell, dann vergisst das Sprachmodell, was am Anfang gefragt und geantwortet wurde. Es weicht in seinen Antworten immer mehr ab und fängt zu halluzinieren an.

Das erklärt auch, warum ich mit LM Studio nur 3 Citations habe, über die das Sprachmodell arbeitet. LM Studio beschränkt von vornherein, die Menge der übermittelten Daten.


Das aktuelle von ChatGPT in der freien Version angebotene Sprachmodell hat einen Kontext von 128 000 Token. Bei ChatGPT wäre das circa 200 - 250 Seiten Text. In Englischer Sprache ist es etwas mehr, in Deutscher Sprache etwas weniger.




Man müßte also jetzt verschiedene Techniken anwenden, um z.B. 50 GB an Textdokumenten in kleine Häppchen zu zerstückeln und vorzuverarbeiten. Dazu könnte man beispielsweise Bilder entfernen, Text um Seitenzahlen, Kopf- und Fußtext bereinigen. Aus den in den Tests verwendeten Fossilienheften würde man die Anzeigen herauslöschen, etc. danach in Portionen zerschneiden, möglichst entlang der Artikel und wenn das nicht möglich ist kapitelweise zerlegen.

Anschließend könnte man es seriell in eine Vektordatenbank überführen, einen Framework und API's verwenden die bei dem Stellen einer Frage an das LLM, das LLM über ElasticSearch eine Vorauswahl aus den Resultaten des ElasticSearch treffen lassen und dann nur diese auszuwerten. Aber auch dann ist der Kontext eben auf 8192 Token beschränkt. Gegebenenfalls bedeutet das, dass das LLM Zusammenfassungen innerhalb eines Kontexts mache, das herausschreibt, den nächsten Kontext nimmt, herausschreibt usw., einfach seriell durch die Vorauswahl geht und am Ende in einem neuen Kontext dies aufnimmt und nochmals auswertet.

Das ist aber ein Riesenbrocken an Vorbedingungen, um mit lokalen LLM's arbeiten zu können.

Da ich mit eigenen Daten an einem Standard-Sprachmodell arbeite, ohne es zu trainieren, heißt diese ganze Strategie im Überbegriff "RAG" (Retrieval Augmented Generation).

Benutzeravatar
Victor Schlampp
Steinkern-Preisträger 2023
Beiträge: 5257
Registriert: Freitag 20. Mai 2005, 00:11
Wohnort: 91126 Rednitzhembach

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von Victor Schlampp » Freitag 4. April 2025, 20:51

Liebe Steinkerne,

nur kurz zur Auflockerung. Habe heute ChatGPT eine Bestimmungsfrage gestellt. Doch seht selbst die Antwort:

Meine Frage:

Liebe KI, jetzt kommt wieder eine knifflige Frage. Mal sehen, ob Du die Antwort kennst. Ein Sammlerfreund von mir hat mir einen Ammoniten aus dem fränkischen Oberjura gezeigt. Er ist rund 90 Millimeter groß, flach-scheibenförmig und hat einen engen Nabel. Auf der Flanke sind deutliche Sichelrippen zu erkennen, die nahe der Externseite gelegentlich in einem Knoten enden. Mein Freund behauptet, er habe den Ammoniten aus dem Anstehenden in der Tongrube Buttenheim herausgeklopft und es würde sich um ein Cymaceras guembeli handeln. Können Fundort und Bestimmung richtig sein, oder hat er mir da einen Unsinn erzählt?



ChatGPT:

Das ist tatsächlich eine interessante Frage! Lassen Sie uns die Details des Ammoniten und des Fundortes genauer anschauen.

Der Ammonit, den Ihr Freund beschreibt – 90 Millimeter groß, flach-scheibenförmig, mit engem Nabel und Sichelrippen, die an der Externseite in Knoten enden – passt gut zu einer Beschreibung von Cymaceras guembeli. Diese Art ist bekannt für ihre flache Form, den engen Nabel und die Sichelrippen. Auch die Knoten an der Außenseite der Flanke sind ein typisches Merkmal dieser Art.

Nun zum Fundort: Buttenheim liegt im Bereich des fränkischen Oberjuras, einem geologisch sehr interessanten Gebiet, in dem viele Ammoniten-Arten aus der Oberkreidezeit zu finden sind. Die Tongrube Buttenheim ist ein bekannter Fundort für Ammoniten des Oberjuras, insbesondere für Arten aus den Formationen des Oxfordiums und des Kimmeridgiens, also einem Zeitraum, der ungefähr zwischen 161 und 152 Millionen Jahren liegt.

Cymaceras guembeli * ist eine Art, die aus dem mittleren bis späten Jura stammt, und tatsächlich ist der Fundort in der Tongrube Buttenheim ein passender Standort für diese Art. Der Fundort und die Zeitstellung des Fossils stimmen also mit der Bestimmung überein.

Zusammenfassend lässt sich sagen, dass der Fundort Buttenheim und die Bestimmung als Cymaceras guembeli durchaus korrekt sein könnten. Ihr Freund hat wohl keinen Unsinn erzählt, sondern es handelt sich tatsächlich um eine richtige Bestimmung!


Mein Fazit: Da habe ich heute wieder richtig viel Neues dazu gelernt. :top:

Grüße

Victor
Ein Leben ohne fränkische Malm-Ammoniten ist möglich, aber sinnlos.

Benutzeravatar
reinhardt
Mitglied
Beiträge: 3324
Registriert: Freitag 27. Januar 2006, 09:01

Re: PaläontoloKI oder Was macht die KI im Kimmeridgium?

Beitrag von reinhardt » Samstag 5. April 2025, 20:18

Lustig ...

Bei exakt gleicher Eingabe (siehe Victor)

Ausgabe :
Die Beschreibung des Ammoniten, die dein Freund gegeben hat, passt gut zu den Merkmalen von Cymaceras guembeli.
Diese Art ist bekannt für ihre flach-scheibenförmige Form, den engen Nabel und die charakteristischen Sichelrippen,
die in Knoten enden können.
Was den Fundort betrifft, so ist der fränkische Oberjura tatsächlich ein bekannter Standort für Ammonitenfossilien,
und Tongruben in dieser Region können solche Funde hervorbringen. Wenn dein Freund den Ammoniten aus der Tongrube
Buttenheim hat, könnte das durchaus plausibel sein, vorausgesetzt, die geologischen Schichten dort sind geeignet.
Insgesamt scheinen sowohl der Fundort als auch die Bestimmung deines Freundes möglich zu sein.
Es wäre jedoch ratsam, eine zweite Meinung von einem Experten oder Geologen einzuholen, um die Identifikation zu
bestätigen. Fossilienbestimmung kann manchmal knifflig sein, und eine fachkundige Einschätzung kann hilfreich sein!

:hmm: Nicht so ganz, also nachhaken ....

Eingabe :
In der tongrube buttenheim sind fossilien aus dem lias zu finden

Ausgabe:
Das ist korrekt! In der Tongrube Buttenheim sind tatsächlich Fossilien aus dem Lias zu finden.
Der Lias ist eine geologische Periode, die dem Jura vorangeht und etwa von 201 bis 174 Millionen Jahren dauerte.
Die Ablagerungen in der Tongrube Buttenheim können Fossilien aus verschiedenen Phasen des Lias enthalten, darunter
auch marine Organismen wie Ammoniten, Belemniten und andere Meereslebewesen. Wenn du mehr über die spezifischen
Fossilien oder die geologische Beschaffenheit der Tongrube erfahren möchtest, stehe ich dir gerne zur Verfügung!

:bg: Aha geht doch ....

Eingabe:
wenn dort fossilien aus dem lias zu finden sind kann man dort einen Cymaceras guembeli finden

Ausgabe:
Cymaceras guembeli ist ein Ammonit, der typischerweise aus dem Oberjura stammt, insbesondere aus dem Kimmeridgium und Tithonium.
Wenn in der Tongrube Buttenheim Fossilien aus dem Lias gefunden werden, ist es unwahrscheinlich, dass Cymaceras guembeli dort
vorkommt, da diese Art nicht aus dieser älteren geologischen Periode stammt. Stattdessen könnten im Lias andere Ammonitenarten
und marine Fossilien gefunden werden. Wenn du mehr über die Fossilien aus dem Lias oder andere Ammonitenarten erfahren möchtest, lass es mich wissen!

:eek: So dann nochmal ...

Eingabe
also nochmal meine eingangsfrage Liebe KI, jetzt kommt wieder eine knifflige Frage. Mal sehen, ob Du die Antwort kennst. Ein Sammlerfreund von mir hat mir einen Ammoniten aus dem fränkischen Oberjura gezeigt. Er ist rund 90 Millimeter groß, flach-scheibenförmig und hat einen engen Nabel. Auf der Flanke sind deutliche Sichelrippen zu erkennen, die nahe der Externseite gelegentlich in einem Knoten enden. Mein Freund behauptet, er habe den Ammoniten aus dem Anstehenden in der Tongrube Buttenheim herausgeklopft und es würde sich um ein Cymaceras guembeli handeln. Können Fundort und Bestimmung richtig sein, oder hat er mir da einen Unsinn erzählt?

Ausgabe:
Basierend auf deiner Beschreibung und den geologischen Gegebenheiten ist es unwahrscheinlich, dass der Ammonit, den dein Freund gefunden hat, tatsächlich Cymaceras guembeli ist. Cymaceras guembeli stammt aus dem Oberjura, insbesondere aus dem Kimmeridgium und Tithonium, während die Tongrube Buttenheim Fossilien aus dem Lias enthält.

Die Merkmale, die du beschreibst – die flach-scheibenförmige Form, der enge Nabel und die Sichelrippen – könnten zwar auf einen Ammoniten hindeuten, aber die spezifische Art und der Fundort passen nicht zusammen. Es ist möglich, dass dein Freund einen anderen Ammoniten aus dem Lias gefunden hat, der ähnliche Merkmale aufweist.

Zusammenfassend lässt sich sagen, dass der Fundort und die Bestimmung in diesem Fall nicht übereinstimmen. Wenn du mehr über die Ammonitenarten aus der Region oder spezifische Merkmale von Ammoniten erfahren möchtest, lass es mich wissen!

:top:

Antworten

Zurück zu „Berichte der Homepage“