KI-fuer-Investigation-Reche.../ai-augumented/text-v1.md
sebastian 91509bb0fb Transform 1
feat: Transform presentation into structured guide

- Reorganized content following basics→practice→advanced structure
- Added technical explanations for all jargon terms
- Integrated checklists at section ends for practical implementation
- Preserved Sebastian Mondial's authentic, direct communication style
- Added placeholders for external resources and images
- Expanded examples and use cases for journalism/archive contexts
- Removed AAGKI section as requested
- Enhanced readability while maintaining technical accuracy

This transformation makes the content more accessible for journalists 
and archivists while keeping the no-nonsense approach of the original.
2025-06-13 14:23:18 +00:00

13 KiB
Raw Blame History

Lokale Künstliche Intelligenz für Investigation, Recherche und Archiv

Ein praktischer Leitfaden für Journalisten und Archivare

Von Sebastian Mondial | Spezialist für KI / LLMs im SWR


Einleitung: Warum dieser Leitfaden?

Die Zeiten ändern sich - oder auch nicht. 1995 dachten wir "Das kann nicht so dumm sein, ich muss es falsch benutzen". 2010 hieß es dann "Ich google wohl falsch". Und 2025? "Ich prompte bestimmt falsch."

Die schlechte Nachricht zuerst: Es gibt keine Knopfdruck-Lösung. Die gute: Mit diesem Leitfaden bekommt ihr die volle Kontrolle über eure KI-Werkzeuge. Und das zahlt sich langfristig aus.

Was ihr hier findet

Dies ist kein KI-Erklärkurs im klassischen Sinne. Es ist ein Workshop-Dokument, das euch befähigt, KI-Systeme zu verstehen und selbstständig zu nutzen. Denkt an Lego: Wenn ihr wisst, was jeder Baustein kann, könnt ihr alles bauen. Technik ist nur dann Magie, wenn man die Grundfunktionen nicht versteht.

Bild: Lego-Bausteine, die sich zu einem neuronalen Netzwerk zusammenfügen <<

Der neue Arbeitsmarkt

Früher kostete das Kreuz-Machen 1.000 Euro. Mit KI kostet es nur noch einen Euro. Die anderen 999 Euro? Die bezahlt ihr jetzt dafür, zu wissen, wie und wo ihr das Kreuz macht. Wissen ist zur eigentlichen Währung geworden.


Teil 1: Grundlagen - Die zwei Welten der KI

Welt 1: Die Konsumenten-KI

Ihr kennt sie alle: ChatGPT, Claude, Perplexity. Login über die Webseite, fertig. Bequem, aber:

  • Systemprompts, die ihr nicht kontrolliert
  • Eure Daten werden gespeichert
  • Training mit euren Dokumenten (ja, wirklich!)
  • Monatliche Gebühren
  • Aussperrung bei zu viel Nutzung

Welt 2: Die Profi-KI über APIs

API steht für "Application Programming Interface" - eine Schnittstelle, über die Programme direkt mit der KI kommunizieren können. Statt über die Webseite zu gehen, "sprecht" ihr direkt mit dem Modell.

Die Vorteile:

  • Bezahlung nach Nutzung (Pay-per-View)
  • Keine Datenspeicherung für Training
  • Volle Kontrolle über Parameter
  • Batch-Verarbeitung mit Rabatten möglich
  • Kein Aussperren

Verweise: Anleitung zur API-Nutzung bei OpenAI und Anthropic <<

Systemprompts - Der versteckte Dirigent

Ein Systemprompt ist wie eine Grundinstruktion, die der KI sagt, wie sie sich verhalten soll. Bei ChatGPT kann der mehrere tausend Wörter lang sein. Das Problem: Diese Instruktionen verbrauchen Token - die Währung der KI-Welt.

Token sind die kleinsten Einheiten, in die KI Text zerlegt. Ein Wort kann 1-4 Token sein. "Du bist ein hilfreicher Assistent" = 15 Token auf Deutsch, aber nur 11 auf Englisch. Bei kleinen Modellen macht das einen enormen Unterschied.

Platzhalter: Detaillierte Token-Erklärung mit Beispielen <<

Checkliste: Erste Schritte zur besseren KI-Nutzung

  • API-Zugang bei mindestens einem Anbieter einrichten
  • Verstehen, was Token sind und wie sie gezählt werden
  • Eigenen minimalen Systemprompt formulieren
  • Erste Tests mit API vs. Web-Interface durchführen

Teil 2: Das Geheimnis erfolgreicher KI-Nutzung

Markdown - Der Cheatcode für KI

Hier kommt eine meiner Lieblings-Entdeckungen: Markdown ist der absolute Cheatcode für KI. Warum? Weil es strukturiert, aber simpel ist. Keine Fonts, keine Textboxen, keine Sonderformatierungen. Nur reine Struktur.

KI-Modelle wurden mit Unmengen von Markdown-Text trainiert (GitHub, Reddit, Dokumentationen). Sie "verstehen" Markdown besser als jedes andere Format.

Was ist Markdown?

Markdown ist eine einfache Auszeichnungssprache:

  • # Überschrift wird zur Hauptüberschrift
  • **fett** macht Text fett
  • - Punkt erstellt eine Liste

Das war's im Grunde schon. Keine 500 Formatierungsoptionen wie in Word.

Verweis: GitHub Markdown Grundlagen Guide <<

Das PDF-Problem

"Sprich mit deinem PDF" - klingt toll, oder? Die Realität:

  1. PDF wird in Text konvertiert
  2. Dabei geht Struktur verloren
  3. Tabellen werden zu Buchstabensalat
  4. Fußnoten landen irgendwo

Die brutale Wahrheit: Wer beim KI-Einsatz gewinnt, hat entweder die Original-Datei oder den besten PDF-Konverter. Und rate mal, wer beides hat? Genau, nicht ihr.

Die PDF-Konverter-Hierarchie

  1. Basis: Standard-PDF-zu-Text (verliert 50% der Struktur)
  2. Besser: PDF zu Markdown Konverter
  3. Optimal: Multimodale Modelle, die PDFs visuell "lesen"

Platzhalter: Vergleichstabelle verschiedener PDF-Konverter mit Vor- und Nachteilen <<

E-Mail-Analyse: Ein praktisches Beispiel

Eine vollständige E-Mail mit allen Headern: 3.843 Token Nur die Nachricht: 233 Token Der Unterschied? Ihr bezahlt das 16-fache und bekommt schlechtere Ergebnisse.

Checkliste: Datenformate optimieren

  • Originaldateien sichern (Word, Excel, nicht PDF!)
  • Markdown-Editor installieren und nutzen lernen
  • PDF-zu-Markdown-Konverter testen
  • E-Mail-Filter für relevante Inhalte einrichten

Teil 3: Lokale KI - Die Hardware-Realität

Warum lokal?

Die Antwort ist einfach: Kontrolle, Datenschutz und Reproduzierbarkeit. Keine Überraschungen, keine Änderungen über Nacht, keine Zensur.

Die fünf Hardware-Klassen

1. Potato-Klasse (<1 Faktor)

KI auf einem Raspberry Pi 4? Technisch möglich, praktisch Wahnsinn. Wie Suppe mit der Gabel essen.

2. Slow Horse (<100 Faktor)

Mein Archiv-Tipp: Gebrauchte Intel NUCs mit 64GB RAM. Leise, energiesparend, reicht für die meisten Aufgaben.

Bild: Intel NUC Setup für KI-Arbeitsplatz <<

3. Apple-Klasse (100-1000)

Nicht "Apple Intelligence" (🙄), sondern MacBook Pro/Max mit 64GB+. Der Sweet Spot für viele: Leise, effizient, "es funktioniert einfach".

4. E-Heizung (>200 Faktor)

Selbstgebaute Systeme mit Gaming-GPUs. Laut, heiß, aber kraftvoll.

5. Kleinwagen bis S-Klasse (>1000)

Professionelle KI-Hardware. Die Frage ist nicht ob, sondern was ihr euch damit erspart.

RAM - Das A und O

KI braucht Hauptspeicher (RAM), nicht Festplattenspeicher. Ein Modell muss komplett in den RAM passen, sonst rechnet ihr mit Disketten-Geschwindigkeit.

Modellgrößen verstehen

Ein Large Language Model (LLM) besteht aus:

  • Code: ~300-900 MB (vernachlässigbar)
  • Weights: Das eigentliche "Gehirn" - von 14 GB bis 6,4 TB!

Die Weights (Gewichte) sind die gelernten Parameter des Modells. Stellt es euch wie ein riesiges Excel-Sheet vor, in dem steht, welches Wort wahrscheinlich auf welches folgt.

Qualitätsstufen - Die Q-Faktoren

Modelle gibt es in verschiedenen Qualitäten:

  • FP16 (Faktor 1): Volle Präzision, braucht viel Speicher
  • Q4 (Faktor 1/4): Guter Kompromiss für die meisten Anwendungen
  • Q1 (Faktor 1/16): "Ich rate mehr als ich rechne"

Beispiel: Llama 2 mit 7 Milliarden Parametern

  • FP16: 14 GB
  • Q4: 3,5 GB (passt auf einen Raspberry Pi 4!)

Verweis: Technische Erklärung von Quantisierung und Präzision <<

Die neuen Tricks: Mixture of Experts

Moderne Modelle wie Llama 4 nutzen Experten-Systeme. Statt ein riesiges Modell zu laden, werden spezialisierte "Experten" je nach Aufgabe aktiviert:

  • Scout: 109B Parameter, aber nur 17B aktiv
  • Maverick: 400B Parameter, aber nur 17B aktiv

Das ist wie ein Krankenhaus: Ihr braucht nicht alle Ärzte gleichzeitig, nur den richtigen Spezialisten.

Kontextfenster - Das Gedächtnis der KI

Das Kontextfenster bestimmt, wie viel die KI gleichzeitig "im Kopf" behalten kann:

  • Input: Was ihr der KI gebt
  • Output: Was sie produzieren kann

Neue Modelle haben gigantische Fenster (1-10 Millionen Token), aber Vorsicht: Mehr Kontext = mehr RAM-Bedarf!

Checkliste: Hardware-Entscheidung

  • Budget festlegen
  • Anwendungsfall definieren (Archiv? Investigation? Beides?)
  • RAM-Bedarf kalkulieren (Modellgröße × 1,2)
  • Lärmtoleranz prüfen (Büro vs. Keller)
  • Energiekosten einkalkulieren

Teil 4: KI-Modelle verstehen und auswählen

Die vier Modell-Typen

1. Completion (Base/Foundation)

Der Rohdiamant. Vervollständigt einfach Text:

  • Input: "Alles hat ein Ende nur die Wurst hat"
  • Output: "zwei"

2. Chat

Der Plauderer. Hat einen Systemprompt und führt Dialoge:

  • Beantwortet Fragen ausführlich
  • Bietet Nachfragen an
  • Oft zu geschwätzig für Batch-Verarbeitung

3. Instruction

Der Arbeitstier. Befolgt Anweisungen präzise:

  • Keine unnötigen Erklärungen
  • Perfekt für Batch-Jobs
  • Meine Empfehlung für Archiv-Arbeit

4. Reasoning

Der Grübler. Zeigt seinen Denkprozess:

  • Überlegt laut
  • Gut für komplexe Analysen
  • Schlecht für schnelle Antworten

Wo findet ihr Modelle?

Ollama: Der App-Store für lokale KI. Ein Befehl, und das Modell läuft.

HuggingFace: Das GitHub für KI-Modelle. Riesige Auswahl, aber technischer.

Verweis: Ollama Einsteiger-Tutorial <<

Modelle für verschiedene Aufgaben

Für Zusammenfassungen: Instruction-Modelle in Q4 Für Recherche: Chat-Modelle mit großem Kontextfenster Für Klassifizierung: Kleine, spezialisierte Modelle

Die Mathematik der Batch-Verarbeitung

Meine "slow KI" schafft 1 Dokument pro Minute. Bei einem typischen Archiv:

  • 1.400 Dokumente = 1 Tag
  • 10.000 Dokumente = 1 Woche
  • 500.000 Dokumente = 1 Jahr

Aber: Mit 10 parallelen Instanzen wird aus einem Jahr ein Monat!

Checkliste: Modell-Auswahl

  • Aufgabe klar definieren
  • Modell-Typ wählen (Chat/Instruction/etc.)
  • Größe an Hardware anpassen
  • Qualitätsstufe (Q-Faktor) festlegen
  • Testlauf mit 100 Dokumenten

Teil 5: Praktische Anwendungen

Recherche-Workflows

Szenario 1: Dokumenten-Analyse

  1. Dokumente in Markdown konvertieren
  2. Instruction-Modell mit klarem Prompt
  3. Strukturierte Ausgabe (JSON/CSV)
  4. Menschliche Verifikation der Ergebnisse

Szenario 2: Fakten-Extraktion

  • Entitäten erkennen (Personen, Orte, Daten)
  • Beziehungen identifizieren
  • Zeitleisten erstellen
  • Widersprüche aufdecken

Platzhalter: Konkretes Beispiel einer Panama-Papers-ähnlichen Analyse <<

Archiv-Workflows

Automatische Verschlagwortung:

  • Modell liest Dokument
  • Extrahiert Schlüsselbegriffe
  • Ordnet Kategorien zu
  • Erstellt Zusammenfassung

Qualitätskontrolle: Immer Stichproben! KI macht Fehler, aber konsistente Fehler, die ihr erkennen könnt.

Investigative Workflows

Das Killer-Feature: Mustererkennung über große Datenmengen

Beispiel E-Mail-Analyse:

  1. Alle E-Mails in strukturiertes Format
  2. KI sucht nach Mustern (gleiche Phrasen, Uhrzeiten, Absender)
  3. Anomalien werden geflaggt
  4. Mensch investigiert die Treffer

Sicherheit und Ethik

Uncensored Modelle

Es gibt Modelle ohne Sicherheitsschranken. Verwendung:

  • Gut: Historische Texte analysieren
  • Schlecht: Anleitungen für illegale Aktivitäten

Datenschutz

  • Lokale Modelle = Daten bleiben lokal
  • Aber: Achtet auf Logs und temporäre Dateien
  • Verschlüsselt sensible Daten zusätzlich

Checkliste: Projekt-Start

  • Rechtliche Rahmenbedingungen klären
  • Datenschutzkonzept erstellen
  • Backup-Strategie festlegen
  • Dokumentation der KI-Nutzung vorbereiten
  • Qualitätssicherung planen

Teil 6: Fortgeschrittene Konzepte

Container und Virtualisierung

Container (z.B. Docker) sind wie Umzugskartons für Software:

  • Alles drin, was die KI braucht
  • Läuft überall gleich
  • Einfaches Backup und Restore

Warum wichtig? In 10 Jahren wollt ihr eure Analysen reproduzieren können. Mit Containern kein Problem.

Verweis: Docker für Journalisten - Einsteiger-Guide <<

Die Zukunft: Langzeitarchivierung

Probleme:

  • Modelle verschwinden
  • Software wird inkompatibel
  • Hardware veraltet

Lösungen:

  • Modelle lokal speichern (ja, die ganzen GB)
  • Software-Versionen einfrieren
  • Dokumentation, Dokumentation, Dokumentation

Performance-Optimierung

Batch-Größe: Wie viele Dokumente gleichzeitig? Experimentiert!

Temperatur: Ein Parameter, der Kreativität steuert

  • 0 = Immer gleiche Antwort
  • 1 = Kreative Variationen

Für Archiv-Arbeit: Temperature = 0

Kosten-Nutzen-Rechnung

Lokale KI:

  • Einmalige Hardware: 2.000-10.000€
  • Strom: ~50€/Monat bei Vollast
  • Unbegrenzte Nutzung

Cloud-KI:

  • 0 Hardware-Kosten
  • 500-5.000€/Monat bei intensiver Nutzung
  • Vendor-Lock-in

Schlusswort: Der Weg nach vorn

KI ist nicht der Endgegner des Journalismus - es ist ein Werkzeug. Wie jedes Werkzeug kann es gut oder schlecht genutzt werden. Mit diesem Leitfaden habt ihr die Grundlagen, um es gut zu nutzen.

Die wichtigsten Takeaways

  1. APIs statt Web-Interface - Mehr Kontrolle, weniger Kosten
  2. Markdown ist König - Strukturierte Daten = bessere Ergebnisse
  3. Hardware nach Bedarf - Nicht übertreiben, aber auch nicht sparen
  4. Lokale Modelle - Datenschutz und Reproduzierbarkeit
  5. Immer verifizieren - KI macht Fehler, aber vorhersagbare

Nächste Schritte

  1. Klein anfangen - Ein Modell, eine Aufgabe
  2. Dokumentieren - Was funktioniert, was nicht
  3. Teilen - Andere haben ähnliche Probleme
  4. Experimentieren - KI entwickelt sich rasant

Ressourcen

Bei Fragen: Signal oder Teams (Links im Git-Repository)


"Alles ist Lego - wenn man weiß, wie die Steine zusammenpassen."

Bild: Eine Katze, die auf einem Computer sitzt, umgeben von Lego-Steinen <