KI-fuer-Investigation-Reche.../Praesentation_250612_v1.md

17 KiB
Raw Blame History

title description tags robots lang breaks type slideOptions
Lokale KI V3 A presentation for Netzwerk Recherche 2025 künstliche Intelligenz, KI, AI, Recherche, Archiv noindex, nofollow de-de true slide
themes transition
League slide



[46670, 11, 4629, 134577, 14082, 25881, 6058, 2434, 7966, 13]




(Nein, nicht aus LOST ... sonst wäre es[4, 8, 15, 16, 23, 42] )


Lokale Künstliche Intelligenz für
Investigation, Recherche und Archiv

NR2025 Harte Zeiten|Harte Fakten

Sebastian Mondial | Spezialist für KI / LLMs im SWR


Seufz

Ich hätte auch schreiben können:

Mit dem Bus, aufm Schiff und in der Luft

Immerhin eine Gemeinsamkeit: Geht alles Lokal


Die Zeiten ändern sich (nicht)

1995: It can't be that stupid, I must be using it wrong
2010: It can't be that stupid, I must be googling it wrong
2025: It can't be that stupid, I must be prompting it wrong

Veränderung des (Arbeits-)Markts

Kreuz machen kostet mit KI nur noch 1€

Wissen wie & wo man es macht
sind jetzt die anderen 999€

Und es hat sich noch was geändert: Ohne Zeit/Kohle geht es nicht. Es gibt außer der "bösen" externen KI keine Knopfdruck-Lösung. Sorry.


Das ist ein Braindump Workshop

Was ist die Eure Arbeit? Nun:

  • Transfer (in die eigene Arbeitswelt)
  • Fragen stellen
  • Spekulieren und Fantasieren

(und ich bin der Shop, LOL)


Ja. (Bekommen wir die Folien?)

HIER. (Und wo liegen die?) -> git.h2h.de

Signal. (Wo kann ich spezielle Fragen stellen?)
Außerdem in Teams für die LRAs / ZDF

JA. (Meinst Du das mit der aAG investigative KI ernst?) (Mehr dazu am Ende ... 😎)


Muss ich mich noch vorstellen?

Okay, 3 Dinge über mich:

  • Katzen
  • Eine investigative Suchmaschine aus Vers(t)ehen
  • Alles ist Lego

Katzen


Eine investigative Suchmaschine aus Vers(t)ehen


Alles ist Lego

Technik ist von Magie nicht unterscheidbar, wenn man nicht die Grundfunktionen und Zusammenhänge beherrscht. Ich bevorzuge Lego: Ich weiss, was der Stein soll


Und vor 18 Jahren hatte ich meinen ersten Talk hier: Datenjournalismus.

Vielleicht ist es Zeit Platz zu machen? #OldWhiteDudes


1 Ich habe jetzt erst mal ein paar Fragen

  • Wer hat hier - im Job / privat ein KI-Abo?
  • Wer nutzt NotebookLM?
  • Wer nutzt Perplexity?
  • Wer nutzt was "esoterisches" - z.B. DeepSeek?

Warum ich frage? Es gibt zwei Welten

  1. Welt - Du nutzt ChatGPT, Claude, ... oder was Vorgefertigtes: Login über www.chatgpt.com oder so.
  2. Welt - Du nutzt GPT4, Opus, .. über eine API (kann sein, dass Du das noch nicht mal weißt)

(Ja, dieser Teil hat noch nichts mit lokaler KI zu tun)


Selbst wenn Dir / Euch das alles danach hier zu kompliziert ist. Hier ist schon mal die direkte Verbesserung Deiner KI-Handhabe:

* Siehe Prozess gegen OpenAI in den USA
** API Zugriffe sind bei allen großen Anbietern zur Zeit (12.06.25) vom Training ausgeschlossen

Was ich ja ernsthaft nicht verstehe, warum die Domains der Anbieter - nicht die der API - aber der normalen KI nicht gesperrt sind. Ich meine, ich kenne aus einem Kontakt die DNS-Zugriffe intern aus einem Haus ... meine Fresse.

Kosten für Normalnutzende niedriger, Kein Aussperren für Vielnutzer und z.B. Batch KI (Discounts!)

Bessere Datenhandhabe und Auswahl, Auswahl, Auswahl



Was ist ein guter Systemprompt? Das neutralste und kürzeste, welcher zu einem Modell empfohlen wird + Tippersparnis.

Beispiel: "You are a helpful assistant. Please reply in german." ~11-12 Token "Du bist ein hilfreicher Assistent. Bitte antworte auf Deutsch." ~15 Token (older 26)

Das sieht nicht nach viel aus, aber bei kleinen Tokenfenstern und lernschwachen Modellen ... oh jeh.


Übrigens ist die "Große" KI nicht wegen sondern trotz der Systemprompts gut.


Was passiert eigentlich, wenn ein PDF Datei auf ein KI-Modell trifft

auch bekannt als "Sprich mit deinem PDF"


Eine andere unschuldige Frage:

Wer hier kennt und schreibt mit Markdown?


Weil Markdown ist der Cheatcode für KI

Strukturierter Input in Markdown wird von - mir sind bislang keine Ausnahmen bekannt - allen Modellen am Besten verarbeitet.

(Okay kleine Ausnahme: Super-Spezial Modelle wie Safety Classifier, Vectorizer, ... )


Der Erfinder hat das nur fürs Bloggen gemacht. Aber die Sprache ist so mächtig wie unvollständig - und damit gibt es erst mal weniger Sonderfälle, eine Zuspitzung zur strukturierten Konformität.

Es gibt zwar Fussnoten, aber nicht so einen CLusterfuck wie bei Word.

Es gibt keine Fonts, keine Schriftgrößen, keine Textboxen, keine Sonderformatierungen. Nur Zeichen und die sind alle als Einzeltoken erfasst und gut gelernt.


Handreichung Markdown


Also wer gewinnt, wenn alle die gleichen KI-Modelle haben beim Einlesen der Investigativen PDFs? Oder der PDF-Recherche? Oder dem Archivbeitrag in PDF-Form?


Die Person mit der Original-Datei


Okay, sorry, das ist gemein

Die mit den meisten und/oder bestem PDF Converter

Weil Struktur ist bei "Restriktion" ausschlaggebend.

Aber ich habe nur bei den Freaks bislang eine Auswahl an PDF-Convertern gesehen.


Wer hat den besten PDF2Markdown Converter? Weiss ich nicht. Ich bin kein PDF Spezialist.

Aaaaber, ein geschätzter Kollege hat einen Spass aka mehr Arbeit mit https://github.com/microsoft/markitdown/issues

Weil ... da kam teilweise nix raus. Also als PDF aus PDFs

[Problemverdeutlichung - Link in Liste)


Der Vollständigkeit halber noch eine Ausnahme: Multimodale Modelle verleiben sich PDFs auch visuell ein. Das ist bislang auch nicht meine Zielgruppe.


Wiederhole das mit fast jedem nicht-visuellen Datenformat:

.doc, .pages, .xls, .ppt, .pptx, ...

.


Bei anderen Dateien sind es die Filter (oder zusätzlich)

Beispiel: eMails - Full Ingest 3843 Token, Message 233 Token

Zusammenfassung je nach Modell okay bis ojeh

[Problemverdeutlichung]


Wie gut is Vision?

Nun, nimm ein Bild was Du für normal hälst und mache es 4x kleiner Oder Objekte aufreihen, und die lässt Du zählen


Das ist kein

AI Erklärkurs *

Tech Support *

List of ... *

* vielleicht doch, LOL


Das ist ein

Volle-Kontrolle Workshop

Ich versteh das und kann das

Das zahlt sich im laufe der Zeit aus

Alles lässt sich entweder mit Geld, Zeit oder Aufmerksamkeit lösen - oder einer Kombination.


Wir machen heute keine ...


Agenten

... weil das mehr KI in Serie ist, aber mehr KI löst nur komplexere Probleme mit mehr KI.


MCP

... weil das ein verdammtes Sicherheitsabltraumrisiko ist (auch lokal) und ich das erst anfasse, wenn ich mich eine Woche damit einschließen kann.


LORA und RAG

... das sind hilfen für KI um große Wissensmengen durchsuchbar zu machen. Fein. Aber sehr speziell und wir haben nur 2h.


Langzeitziele

  • Einmal einrichten: Läuft
  • Lässt sich auch noch in 10 Jahren benutzen
  • Ist replizierbar, d.h. Ergebnisse bleiben gleich
  • Niedrige Komplexität

Minimales Setup für lokale KI

  • Computer mit Admin (ASK)
  • Container (Was ist das?) oder Backup
  • 16 24 GB und mehr Speicher
  • Zeit LOL, und einen Qualitäts-KI Anbieter fürs Schummeln

Kurzrant Risikomanagement

Beschaff mir einen f*** Computer mit guter Ausstattung, einen DSL-Anschluss und vertrau mir, dass ich da keinen Scheiss installiere.

Zur not plätte den Rechner jede Woche oder auf Knopfdruck.

Nur so bekommst Du Innovation.

/rant


Der Teil, in dem wir kurz fragen:
Wirkt der Kaffee schon?


Die Variablen im KI-Spiel

Compute, RAM, Models, Software, Wissen

Das waren die Modelle, jetzt kommt die Hardware.


4 5 Klassen Potato, Slow Horse, Apple, E-Heizung, Kleinwagen bis S-Klasse


Potato

<1 ... Faktoren "sin jeföhlt"

KI auf einem Raspberry Pie 4 ... es geht, aber warum?


Slow Horse

<100

Mein Tipp für Archive. Auch

Eat your own dogfood


Apple

100-1000, depends

Nein, nicht Apple Intelligence 🙄 sondern nur Pro & Max Geräte ab 64 GB.

Mittelschnell und vor allem leise & energiesparsam


E-Heizung für die Küche

>200

Sowas hier Rechner zusammenbauen (lassen) - und GPUs kombinieren. Ziel: 24 GB und größer GPU Kapazität Goldener Horizont Wers glaubt


Kleinwagen bis S-Klasse

>1000

Was sagt idealo Die Geräte kann man auch über einen Bus koppeln. Dann kostet es gleich doppelt so viel.

Die 38.675€ Frage ist ja: Was (er)spare ich (mir)?


RAM also Speicher

Also KI braucht Speicher und zwar den schnellsten - Hauptspeicher.

Ansonsten kannst Du es auch gleich mit der Hand ausrechnen.


Größen der LLMs

Der Code ist nicht das Problem…

Was Code Weights
OpenAI GPT3.5 700 mb 350 GB
OpenAI GPT 4 900 mb 6,4 TB *
Laama 2 7B 300 mb 14 GB
  • Nur, wenn die dort Lack gesoffen und alles mit full float & unpruned laufen lassen.

Und dann gibt es die Qualitäten

Name Faktor Notizen Typ*
FP16 1 Fließkommagenau UHQ
FP8 1/2 Halbe Genauigkeit VHQ
Q4.1 5/16 Nutzbar mit extras GQ
Q4 1/4 Nutzbar SD
Q1 1/16 "Ich rechne nicht" LOL

(und jede Menge Qs dazwischen, Typenbezeichnung nur für die Einordnung)


Ich möchte LLaMA 2 auf meinem Raspberry 4 laufen lassen (4GB)

Geht das und welche(s) Q brauche ich? Nur KI? dann geht Q4 - 3,5 GB für die Weights + Runtime 300MB


Wer macht solche Modelle? Unter anderem UnSloth


Rechenaufgabe

Damit Ihr es verstanden habt

Deep Seek 671B: Wie groß ist die 16Bit Variante? Wie groß ist die kleinste Q-Variante q1?

LLaMA Maverick 17B / 400B / 128 Experts: Wie groß? Und was heißt 17/400? Was braucht man für den Kontext 1 MioToken?

LLaMA Scout 17B / 109B / 16 Exp Wie groß? Und was heißt 17/109? Was braucht man für den Kontext 10MioToken?


Neue Tricks

Experten!!1!

Neue Modelle sind z.B. 109 B groß (ursprünglich) , aber die Experten sind kleiner und es wird mindestens ein Experte "ausgesucht" der geladen und dann ausgeführt wird.


LLaMA 4

Feature Llama 4 Scout Llama 4 Maverick
Multimodal Input: Text + up to 5 images, Output: Text-only
Multilingual Arabic, English, French, German, Hindi, Indonesian, Italian, Portuguese, Spanish, Tagalog, Thai, and Vietnamese. Image understanding is English-only.
Active parameters 17B
# Experts 16 128
Abs params 109B 400B
Single GPU? Yes No
Context 10M tokens 1M tokens

Oh stimmt ...

... da waren ja noch die Contextfenster


Rate mal:
Was passiert, wenn das Kontextfenster (Output) erreicht wird?
Was passiert, wenn das Kontextfenster (Input) erreicht wird?
Bonus: Warum ist das größer?
Was ist ein rollendes Kontextfenster und wo ist das keine gute Idee?

AKA KI-Typen und dann kommt der Handson-Teil


Completion, Chat, Instruction, Reason

Die vier apokalyptischen FT-Reiter der LLMS


Completion

auch bekannt als Base, Foundation, RAW

Rolle Antwort
[User] Alles hat ein Ende nur die Wurst hat
[Assistant] zwei

Chat

Rolle Antwort
[System] Yadda Yadda Yadda°
[User] What is the capital of germany?
[Assistant]
The capital of Germany is Berlin since 1990. Before that it was Bonn. Do you want to know more about german History?

° Je nach dem wo Du ein Chat-Model triffst, hat es einen ausführlichen Systemprompt. Tja.


Instruction

Rolle Antwort
[User] What is the capital of Germany?
[Assistant] The capital of Germany is Berlin.

Reason :-/

Rolle Antwort
[User] Hallo, wie gehts?
[Reason]
Also der Nutzer hat mich gefragt wie es mir geht und erwartet eine Antwort wie "Okay", "Muss", "Gut", ... Gleichzeitig weiss der Nuetzer, dass ich kein Mensch bin und daher ist die Frage möglicherweise ein Test auf den ich antworten sollte "Ich bin eine Maschine, es geht mir immer gut". Andererseits wäre das nicht lustig
[Assistant] Okay.

Also: 1,2,3 oder 4?


Wo kommen die Modelle her?

"Die Quelle allen ..."

Ollama / HuggingFace


Related: Workhorse LLMs: Why Open Source Models
Dominate Closed Source for Batch Tasks


Praxis

Lieber Gefroren oder Bestimmt?


Mathe π x 👍🏻

Meine slow KI schafft 1 Dokument pro Minute, wie lange dauert mein Archiv?

Dokumente pro
ca. 1.400 Tag
ca. 10.000 Woche
ca. 130.000 im Quartal
ca. 500.000 im Jahr

Vertiefung mit Fragen / Lösungen

  • Recherche
  • Archiv
  • Investigation

Mail für async

(Nickel and Dime Version)


Unzensiert / Sicherheit (Zensur als Schutz)

  • Uncensored Modelle

  • Build: Finetuning anders / fehlt

  • Hacked: Entfernung der Sicherheitsfeatures

  • Don't care: Neue Modelle hemmungloser außer IntProp

  • Safety Modelle von Meta & Google


ad-Hoc Arbeitsgruppe Investigative KI (AAGKI)

Es reicht nicht, das wir uns 1-2 im Jahr treffen und austauschen. Wir haben jetzt verbreitet das Wissen und stabile Werkzeuge. Statt das wir jedes Problem alleine und vereinzelt lösen, sollten wir uns austauschen. Was geht? Was geht nicht? Woran arbeiten wir, wenn wir das sagen können damit wir uns gegenseitig unterstüzten können? Weil: KI ist gerade der Endgegner des Journalismus. (Mal wieder einer)


Von meiner Seite:

  • Ich würde das ein Jahr unterstüzten, mit Infra, Wissen & Geld (d.h. kostenneutral)
  • Ein Jahr, weil das eine gute Zeit ist Leute einzuführen (wenn überhaupt nötig) und dann andere das machen zu lassen. Wenn Strukturen stabil sind, dann solche die von Anfang an lernen, wie man wechselt und wechsel lebt.
  • Netzwerk Recherche? Ne Stiftung? Ein Bund? Wenn ich dazu was sagen darf: Ich hätte gerne was ohne den Einfluss der schon eh üblichen Verdächtigen. Also: Die können gerne helfen, aber die haben schon genug.
  • Und lassen wir ÖR/Privat bitte draußen. Ich kann Statistiken gut genug lesen das wir uns alle gegenseitig brauchen werden - als Nachrichtensystem. Das ist wie mit den Lücken bei den Geschäften in der Innenstadt.

Maßnahmen aus der Grabbelbox

  • KI Datenträger mit eigenen Metadaten
  • Genaue Trennung / Definition was mit KI modifiziert wurde
  • Modelle archivieren - und die dazu gehörige Software
  • Virtualisierung quem oder docker
  • CPU ist - mit einschränkungen kein Problem, eher OS
  • Linux as Storage & Metadata
  • bei "Langsamer" KI ist Datenträger-geschw. kein Ding, erst bei schneller KI und für Modellbereitstellung