sebastian/KI-fuer-Investigation-Recherche-und-Archiv

feat: Transform presentation into structured guide

- Reorganized content following basics→practice→advanced structure
- Added technical explanations for all jargon terms
- Integrated checklists at section ends for practical implementation
- Preserved Sebastian Mondial's authentic, direct communication style
- Added placeholders for external resources and images
- Expanded examples and use cases for journalism/archive contexts
- Removed AAGKI section as requested
- Enhanced readability while maintaining technical accuracy

This transformation makes the content more accessible for journalists 
and archivists while keeping the no-nonsense approach of the original.

2025-06-13 14:23:18 +00:00

13 KiB

Raw Blame History

Lokale Künstliche Intelligenz für Investigation, Recherche und Archiv

Ein praktischer Leitfaden für Journalisten und Archivare

Von Sebastian Mondial | Spezialist für KI / LLMs im SWR

Einleitung: Warum dieser Leitfaden?

Die Zeiten ändern sich - oder auch nicht. 1995 dachten wir "Das kann nicht so dumm sein, ich muss es falsch benutzen". 2010 hieß es dann "Ich google wohl falsch". Und 2025? "Ich prompte bestimmt falsch."

Die schlechte Nachricht zuerst: Es gibt keine Knopfdruck-Lösung. Die gute: Mit diesem Leitfaden bekommt ihr die volle Kontrolle über eure KI-Werkzeuge. Und das zahlt sich langfristig aus.

Was ihr hier findet

Dies ist kein KI-Erklärkurs im klassischen Sinne. Es ist ein Workshop-Dokument, das euch befähigt, KI-Systeme zu verstehen und selbstständig zu nutzen. Denkt an Lego: Wenn ihr wisst, was jeder Baustein kann, könnt ihr alles bauen. Technik ist nur dann Magie, wenn man die Grundfunktionen nicht versteht.

Bild: Lego-Bausteine, die sich zu einem neuronalen Netzwerk zusammenfügen <<

Der neue Arbeitsmarkt

Früher kostete das Kreuz-Machen 1.000 Euro. Mit KI kostet es nur noch einen Euro. Die anderen 999 Euro? Die bezahlt ihr jetzt dafür, zu wissen, wie und wo ihr das Kreuz macht. Wissen ist zur eigentlichen Währung geworden.

Teil 1: Grundlagen - Die zwei Welten der KI

Welt 1: Die Konsumenten-KI

Ihr kennt sie alle: ChatGPT, Claude, Perplexity. Login über die Webseite, fertig. Bequem, aber:

Systemprompts, die ihr nicht kontrolliert
Eure Daten werden gespeichert
Training mit euren Dokumenten (ja, wirklich!)
Monatliche Gebühren
Aussperrung bei zu viel Nutzung

Welt 2: Die Profi-KI über APIs

API steht für "Application Programming Interface" - eine Schnittstelle, über die Programme direkt mit der KI kommunizieren können. Statt über die Webseite zu gehen, "sprecht" ihr direkt mit dem Modell.

Die Vorteile:

Bezahlung nach Nutzung (Pay-per-View)
Keine Datenspeicherung für Training
Volle Kontrolle über Parameter
Batch-Verarbeitung mit Rabatten möglich
Kein Aussperren

Verweise: Anleitung zur API-Nutzung bei OpenAI und Anthropic <<

Systemprompts - Der versteckte Dirigent

Ein Systemprompt ist wie eine Grundinstruktion, die der KI sagt, wie sie sich verhalten soll. Bei ChatGPT kann der mehrere tausend Wörter lang sein. Das Problem: Diese Instruktionen verbrauchen Token - die Währung der KI-Welt.

Token sind die kleinsten Einheiten, in die KI Text zerlegt. Ein Wort kann 1-4 Token sein. "Du bist ein hilfreicher Assistent" = 15 Token auf Deutsch, aber nur 11 auf Englisch. Bei kleinen Modellen macht das einen enormen Unterschied.

Platzhalter: Detaillierte Token-Erklärung mit Beispielen <<

Checkliste: Erste Schritte zur besseren KI-Nutzung

API-Zugang bei mindestens einem Anbieter einrichten
Verstehen, was Token sind und wie sie gezählt werden
Eigenen minimalen Systemprompt formulieren
Erste Tests mit API vs. Web-Interface durchführen

Teil 2: Das Geheimnis erfolgreicher KI-Nutzung

Markdown - Der Cheatcode für KI

Hier kommt eine meiner Lieblings-Entdeckungen: Markdown ist der absolute Cheatcode für KI. Warum? Weil es strukturiert, aber simpel ist. Keine Fonts, keine Textboxen, keine Sonderformatierungen. Nur reine Struktur.

KI-Modelle wurden mit Unmengen von Markdown-Text trainiert (GitHub, Reddit, Dokumentationen). Sie "verstehen" Markdown besser als jedes andere Format.

Was ist Markdown?

Markdown ist eine einfache Auszeichnungssprache:

# Überschrift wird zur Hauptüberschrift
**fett** macht Text fett
- Punkt erstellt eine Liste

Das war's im Grunde schon. Keine 500 Formatierungsoptionen wie in Word.

Verweis: GitHub Markdown Grundlagen Guide <<

Das PDF-Problem

"Sprich mit deinem PDF" - klingt toll, oder? Die Realität:

PDF wird in Text konvertiert
Dabei geht Struktur verloren
Tabellen werden zu Buchstabensalat
Fußnoten landen irgendwo

Die brutale Wahrheit: Wer beim KI-Einsatz gewinnt, hat entweder die Original-Datei oder den besten PDF-Konverter. Und rate mal, wer beides hat? Genau, nicht ihr.

Die PDF-Konverter-Hierarchie

Basis: Standard-PDF-zu-Text (verliert 50% der Struktur)
Besser: PDF zu Markdown Konverter
Optimal: Multimodale Modelle, die PDFs visuell "lesen"

Platzhalter: Vergleichstabelle verschiedener PDF-Konverter mit Vor- und Nachteilen <<

E-Mail-Analyse: Ein praktisches Beispiel

Eine vollständige E-Mail mit allen Headern: 3.843 Token Nur die Nachricht: 233 Token Der Unterschied? Ihr bezahlt das 16-fache und bekommt schlechtere Ergebnisse.

Checkliste: Datenformate optimieren

Originaldateien sichern (Word, Excel, nicht PDF!)
Markdown-Editor installieren und nutzen lernen
PDF-zu-Markdown-Konverter testen
E-Mail-Filter für relevante Inhalte einrichten

Teil 3: Lokale KI - Die Hardware-Realität

Warum lokal?

Die Antwort ist einfach: Kontrolle, Datenschutz und Reproduzierbarkeit. Keine Überraschungen, keine Änderungen über Nacht, keine Zensur.

Die fünf Hardware-Klassen

1. Potato-Klasse (<1 Faktor)

KI auf einem Raspberry Pi 4? Technisch möglich, praktisch Wahnsinn. Wie Suppe mit der Gabel essen.

2. Slow Horse (<100 Faktor)

Mein Archiv-Tipp: Gebrauchte Intel NUCs mit 64GB RAM. Leise, energiesparend, reicht für die meisten Aufgaben.

Bild: Intel NUC Setup für KI-Arbeitsplatz <<

3. Apple-Klasse (100-1000)

Nicht "Apple Intelligence" (🙄), sondern MacBook Pro/Max mit 64GB+. Der Sweet Spot für viele: Leise, effizient, "es funktioniert einfach".

4. E-Heizung (>200 Faktor)

Selbstgebaute Systeme mit Gaming-GPUs. Laut, heiß, aber kraftvoll.

5. Kleinwagen bis S-Klasse (>1000)

Professionelle KI-Hardware. Die Frage ist nicht ob, sondern was ihr euch damit erspart.

RAM - Das A und O

KI braucht Hauptspeicher (RAM), nicht Festplattenspeicher. Ein Modell muss komplett in den RAM passen, sonst rechnet ihr mit Disketten-Geschwindigkeit.

Modellgrößen verstehen

Ein Large Language Model (LLM) besteht aus:

Code: ~300-900 MB (vernachlässigbar)
Weights: Das eigentliche "Gehirn" - von 14 GB bis 6,4 TB!

Die Weights (Gewichte) sind die gelernten Parameter des Modells. Stellt es euch wie ein riesiges Excel-Sheet vor, in dem steht, welches Wort wahrscheinlich auf welches folgt.

Qualitätsstufen - Die Q-Faktoren

Modelle gibt es in verschiedenen Qualitäten:

FP16 (Faktor 1): Volle Präzision, braucht viel Speicher
Q4 (Faktor 1/4): Guter Kompromiss für die meisten Anwendungen
Q1 (Faktor 1/16): "Ich rate mehr als ich rechne"

Beispiel: Llama 2 mit 7 Milliarden Parametern

FP16: 14 GB
Q4: 3,5 GB (passt auf einen Raspberry Pi 4!)

Verweis: Technische Erklärung von Quantisierung und Präzision <<

Die neuen Tricks: Mixture of Experts

Moderne Modelle wie Llama 4 nutzen Experten-Systeme. Statt ein riesiges Modell zu laden, werden spezialisierte "Experten" je nach Aufgabe aktiviert:

Scout: 109B Parameter, aber nur 17B aktiv
Maverick: 400B Parameter, aber nur 17B aktiv

Das ist wie ein Krankenhaus: Ihr braucht nicht alle Ärzte gleichzeitig, nur den richtigen Spezialisten.

Kontextfenster - Das Gedächtnis der KI

Das Kontextfenster bestimmt, wie viel die KI gleichzeitig "im Kopf" behalten kann:

Input: Was ihr der KI gebt
Output: Was sie produzieren kann

Neue Modelle haben gigantische Fenster (1-10 Millionen Token), aber Vorsicht: Mehr Kontext = mehr RAM-Bedarf!

Checkliste: Hardware-Entscheidung

Budget festlegen
Anwendungsfall definieren (Archiv? Investigation? Beides?)
RAM-Bedarf kalkulieren (Modellgröße × 1,2)
Lärmtoleranz prüfen (Büro vs. Keller)
Energiekosten einkalkulieren

Teil 4: KI-Modelle verstehen und auswählen

Die vier Modell-Typen

1. Completion (Base/Foundation)

Der Rohdiamant. Vervollständigt einfach Text:

Input: "Alles hat ein Ende nur die Wurst hat"
Output: "zwei"

2. Chat

Der Plauderer. Hat einen Systemprompt und führt Dialoge:

Beantwortet Fragen ausführlich
Bietet Nachfragen an
Oft zu geschwätzig für Batch-Verarbeitung

3. Instruction

Der Arbeitstier. Befolgt Anweisungen präzise:

Keine unnötigen Erklärungen
Perfekt für Batch-Jobs
Meine Empfehlung für Archiv-Arbeit

4. Reasoning

Der Grübler. Zeigt seinen Denkprozess:

Überlegt laut
Gut für komplexe Analysen
Schlecht für schnelle Antworten

Wo findet ihr Modelle?

Ollama: Der App-Store für lokale KI. Ein Befehl, und das Modell läuft.

HuggingFace: Das GitHub für KI-Modelle. Riesige Auswahl, aber technischer.

Verweis: Ollama Einsteiger-Tutorial <<

Modelle für verschiedene Aufgaben

Für Zusammenfassungen: Instruction-Modelle in Q4 Für Recherche: Chat-Modelle mit großem Kontextfenster Für Klassifizierung: Kleine, spezialisierte Modelle

Die Mathematik der Batch-Verarbeitung

Meine "slow KI" schafft 1 Dokument pro Minute. Bei einem typischen Archiv:

1.400 Dokumente = 1 Tag
10.000 Dokumente = 1 Woche
500.000 Dokumente = 1 Jahr

Aber: Mit 10 parallelen Instanzen wird aus einem Jahr ein Monat!

Checkliste: Modell-Auswahl

Aufgabe klar definieren
Modell-Typ wählen (Chat/Instruction/etc.)
Größe an Hardware anpassen
Qualitätsstufe (Q-Faktor) festlegen
Testlauf mit 100 Dokumenten

Teil 5: Praktische Anwendungen

Recherche-Workflows

Szenario 1: Dokumenten-Analyse

Dokumente in Markdown konvertieren
Instruction-Modell mit klarem Prompt
Strukturierte Ausgabe (JSON/CSV)
Menschliche Verifikation der Ergebnisse

Szenario 2: Fakten-Extraktion

Entitäten erkennen (Personen, Orte, Daten)
Beziehungen identifizieren
Zeitleisten erstellen
Widersprüche aufdecken

Platzhalter: Konkretes Beispiel einer Panama-Papers-ähnlichen Analyse <<

Archiv-Workflows

Automatische Verschlagwortung:

Modell liest Dokument
Extrahiert Schlüsselbegriffe
Ordnet Kategorien zu
Erstellt Zusammenfassung

Qualitätskontrolle: Immer Stichproben! KI macht Fehler, aber konsistente Fehler, die ihr erkennen könnt.

Investigative Workflows

Das Killer-Feature: Mustererkennung über große Datenmengen

Beispiel E-Mail-Analyse:

Alle E-Mails in strukturiertes Format
KI sucht nach Mustern (gleiche Phrasen, Uhrzeiten, Absender)
Anomalien werden geflaggt
Mensch investigiert die Treffer

Sicherheit und Ethik

Uncensored Modelle

Es gibt Modelle ohne Sicherheitsschranken. Verwendung:

Gut: Historische Texte analysieren
Schlecht: Anleitungen für illegale Aktivitäten

Datenschutz

Lokale Modelle = Daten bleiben lokal
Aber: Achtet auf Logs und temporäre Dateien
Verschlüsselt sensible Daten zusätzlich

Checkliste: Projekt-Start

Rechtliche Rahmenbedingungen klären
Datenschutzkonzept erstellen
Backup-Strategie festlegen
Dokumentation der KI-Nutzung vorbereiten
Qualitätssicherung planen

Teil 6: Fortgeschrittene Konzepte

Container und Virtualisierung

Container (z.B. Docker) sind wie Umzugskartons für Software:

Alles drin, was die KI braucht
Läuft überall gleich
Einfaches Backup und Restore

Warum wichtig? In 10 Jahren wollt ihr eure Analysen reproduzieren können. Mit Containern kein Problem.

Verweis: Docker für Journalisten - Einsteiger-Guide <<

Die Zukunft: Langzeitarchivierung

Probleme:

Modelle verschwinden
Software wird inkompatibel
Hardware veraltet

Lösungen:

Modelle lokal speichern (ja, die ganzen GB)
Software-Versionen einfrieren
Dokumentation, Dokumentation, Dokumentation

Performance-Optimierung

Batch-Größe: Wie viele Dokumente gleichzeitig? Experimentiert!

Temperatur: Ein Parameter, der Kreativität steuert

0 = Immer gleiche Antwort
1 = Kreative Variationen

Für Archiv-Arbeit: Temperature = 0

Kosten-Nutzen-Rechnung

Lokale KI:

Einmalige Hardware: 2.000-10.000€
Strom: ~50€/Monat bei Vollast
Unbegrenzte Nutzung

Cloud-KI:

0 Hardware-Kosten
500-5.000€/Monat bei intensiver Nutzung
Vendor-Lock-in

Schlusswort: Der Weg nach vorn

KI ist nicht der Endgegner des Journalismus - es ist ein Werkzeug. Wie jedes Werkzeug kann es gut oder schlecht genutzt werden. Mit diesem Leitfaden habt ihr die Grundlagen, um es gut zu nutzen.

Die wichtigsten Takeaways

APIs statt Web-Interface - Mehr Kontrolle, weniger Kosten
Markdown ist König - Strukturierte Daten = bessere Ergebnisse
Hardware nach Bedarf - Nicht übertreiben, aber auch nicht sparen
Lokale Modelle - Datenschutz und Reproduzierbarkeit
Immer verifizieren - KI macht Fehler, aber vorhersagbare

Nächste Schritte

Klein anfangen - Ein Modell, eine Aufgabe
Dokumentieren - Was funktioniert, was nicht
Teilen - Andere haben ähnliche Probleme
Experimentieren - KI entwickelt sich rasant

Ressourcen

Ollama: https://ollama.com
HuggingFace: https://huggingface.co
Dieses Dokument: https://git.h2h.de/sebastian/KI-fuer-Investigation-Recherche-und-Archiv

Bei Fragen: Signal oder Teams (Links im Git-Repository)

"Alles ist Lego - wenn man weiß, wie die Steine zusammenpassen."

Bild: Eine Katze, die auf einem Computer sitzt, umgeben von Lego-Steinen <

13 KiB Raw Blame History Unescape Escape