sebastian/KI-fuer-Investigation-Recherche-und-Archiv

Fork 0

sebastian 565e052ac4 Praesentation_250612_v1.md aktualisiert

2025-06-13 08:59:47 +00:00

Lokale Künstliche Intelligenz für
Investigation, Recherche und Archiv

NR2025 Harte Zeiten|Harte Fakten

Sebastian Mondial | Spezialist für KI / LLMs im SWR

Seufz

Ich hätte auch schreiben können:

Mit dem Bus, aufm Schiff und in der Luft

Immerhin eine Gemeinsamkeit: Geht alles Lokal

Die Zeiten ändern sich (nicht)

1995: It can't be that stupid, I must be using it wrong

2010: It can't be that stupid, I must be googling it wrong

2025: It can't be that stupid, I must be prompting it wrong

Veränderung des (Arbeits-)Markts

Kreuz machen kostet mit KI nur noch 1€

Wissen wie & wo man es macht
sind jetzt die anderen 999€

Und es hat sich noch was geändert: Ohne Zeit/Kohle geht es nicht. Es gibt außer der "bösen" externen KI keine Knopfdruck-Lösung. Sorry.

Das ist ein Braindump Workshop

Was ist die Eure Arbeit? Nun:

Transfer (in die eigene Arbeitswelt)
Fragen stellen
Spekulieren und Fantasieren

(und ich bin der Shop, LOL)

Ja. (Bekommen wir die Folien?)

HIER. (Und wo liegen die?) -> git.h2h.de

Signal. (Wo kann ich spezielle Fragen stellen?)
Außerdem in Teams für die LRAs / ZDF

JA. (Meinst Du das mit der aAG investigative KI ernst?) (Mehr dazu am Ende ... 😎)

Muss ich mich noch vorstellen?

Okay, 3 Dinge über mich:

Katzen
Eine investigative Suchmaschine aus Vers(t)ehen
Alles ist Lego

Katzen

Eine investigative Suchmaschine aus Vers(t)ehen

Alles ist Lego

Technik ist von Magie nicht unterscheidbar, wenn man nicht die Grundfunktionen und Zusammenhänge beherrscht. Ich bevorzuge Lego: Ich weiss, was der Stein soll

Und vor 18 Jahren hatte ich meinen ersten Talk hier: Datenjournalismus.

Vielleicht ist es Zeit Platz zu machen? #OldWhiteDudes

1️⃣ Ich habe jetzt erst mal ein paar Fragen

Wer hat hier - im Job / privat ein KI-Abo?
Wer nutzt NotebookLM?
Wer nutzt Perplexity?
Wer nutzt was "esoterisches" - z.B. DeepSeek?

Warum ich frage? Es gibt zwei Welten

Welt - Du nutzt ChatGPT, Claude, ... oder was Vorgefertigtes: Login über www.chatgpt.com oder so.
Welt - Du nutzt GPT4, Opus, .. über eine API (kann sein, dass Du das noch nicht mal weißt)

(Ja, dieser Teil hat noch nichts mit lokaler KI zu tun)

Selbst wenn Dir / Euch das alles danach hier zu kompliziert ist. Hier ist schon mal die direkte Verbesserung Deiner KI-Handhabe:

Geh auf die API. Hol Dir KI als PpV
Verzichte auf den Systemprompt (mehr oder midner), Speicherung Deiner Daten* und Training mit Deinen Dokumenten**

* Siehe Prozess gegen OpenAI in den USA
** API Zugriffe sind bei allen großen Anbietern zur Zeit (12.06.25) vom Training ausgeschlossen

Was ich ja ernsthaft nicht verstehe, warum die Domains der Anbieter - nicht die der API - aber der normalen KI nicht gesperrt sind. Ich meine, ich kenne aus einem Kontakt die DNS-Zugriffe intern aus einem Haus ... meine Fresse.

Kosten für Normalnutzende niedriger, Kein Aussperren für Vielnutzer und z.B. Batch KI (Discounts!)

Bessere Datenhandhabe und Auswahl, Auswahl, Auswahl

Was ist ein guter Systemprompt? Das neutralste und kürzeste, welcher zu einem Modell empfohlen wird + Tippersparnis.

Beispiel: "You are a helpful assistant. Please reply in german." ~11-12 Token "Du bist ein hilfreicher Assistent. Bitte antworte auf Deutsch." ~15 Token (older 26)

Das sieht nicht nach viel aus, aber bei kleinen Tokenfenstern und lernschwachen Modellen ... oh jeh.

Übrigens ist die "Große" KI nicht wegen sondern trotz der Systemprompts gut.

Was passiert eigentlich, wenn ein PDF Datei auf ein KI-Modell trifft

auch bekannt als "Sprich mit deinem PDF"

Eine andere unschuldige Frage:

Wer hier kennt und schreibt mit Markdown?

Weil Markdown ist der Cheatcode für KI

Strukturierter Input in Markdown wird von - mir sind bislang keine Ausnahmen bekannt - allen Modellen am Besten verarbeitet.

(Okay kleine Ausnahme: Super-Spezial Modelle wie Safety Classifier, Vectorizer, ... )

Der Erfinder hat das nur fürs Bloggen gemacht. Aber die Sprache ist so mächtig wie unvollständig - und damit gibt es erst mal weniger Sonderfälle, eine Zuspitzung zur strukturierten Konformität.

Es gibt zwar Fussnoten, aber nicht so einen CLusterfuck wie bei Word.

Es gibt keine Fonts, keine Schriftgrößen, keine Textboxen, keine Sonderformatierungen. Nur Zeichen und die sind alle als Einzeltoken erfasst und gut gelernt.

Handreichung Markdown

Also wer gewinnt, wenn alle die gleichen KI-Modelle haben beim Einlesen der Investigativen PDFs? Oder der PDF-Recherche? Oder dem Archivbeitrag in PDF-Form?

Die Person mit der Original-Datei

Okay, sorry, das ist gemein

Die mit den meisten und/oder bestem PDF Converter

Weil Struktur ist bei "Restriktion" ausschlaggebend.

Aber ich habe nur bei den Freaks bislang eine Auswahl an PDF-Convertern gesehen.

Wer hat den besten PDF2Markdown Converter? Weiss ich nicht. Ich bin kein PDF Spezialist.

Aaaaber, ein geschätzter Kollege hat einen Spass aka mehr Arbeit mit https://github.com/microsoft/markitdown/issues

Weil ... da kam teilweise nix raus. Also als PDF aus PDFs

[Problemverdeutlichung - Link in Liste)

Der Vollständigkeit halber noch eine Ausnahme: Multimodale Modelle verleiben sich PDFs auch visuell ein. Das ist bislang auch nicht meine Zielgruppe.

Wiederhole das mit fast jedem nicht-visuellen Datenformat:

.doc, .pages, .xls, .ppt, .pptx, ...

Bei anderen Dateien sind es die Filter (oder zusätzlich)

Beispiel: eMails - Full Ingest 3843 Token, Message 233 Token

Zusammenfassung je nach Modell okay bis ojeh

~~[Problemverdeutlichung]~~

Wie gut is Vision?

Nun, nimm ein Bild was Du für normal hälst und mache es 4x kleiner Oder Objekte aufreihen, und die lässt Du zählen

Das ist kein

AI Erklärkurs *

Tech Support *

List of ... *

* vielleicht doch, LOL

Das ist ein

Volle-Kontrolle Workshop

Ich versteh das und kann das

Das zahlt sich im laufe der Zeit aus

Alles lässt sich entweder mit Geld, Zeit oder Aufmerksamkeit lösen - oder einer Kombination.

Wir machen heute keine ...

Agenten

... weil das mehr KI in Serie ist, aber mehr KI löst nur komplexere Probleme mit mehr KI.

MCP

... weil das ein verdammtes Sicherheitsabltraumrisiko ist (auch lokal) und ich das erst anfasse, wenn ich mich eine Woche damit einschließen kann.

LORA und RAG

... das sind hilfen für KI um große Wissensmengen durchsuchbar zu machen. Fein. Aber sehr speziell und wir haben nur 2h.

Langzeitziele

Einmal einrichten: Läuft
Lässt sich auch noch in 10 Jahren benutzen
Ist replizierbar, d.h. Ergebnisse bleiben gleich
Niedrige Komplexität

Minimales Setup für lokale KI

Computer mit Admin (ASK)
Container (Was ist das?) oder Backup
16 24 GB und mehr Speicher
Zeit LOL, und einen Qualitäts-KI Anbieter fürs Schummeln

Kurzrant Risikomanagement

Beschaff mir einen f*** Computer mit guter Ausstattung, einen DSL-Anschluss und vertrau mir, dass ich da keinen Scheiss installiere.

Zur not plätte den Rechner jede Woche oder auf Knopfdruck.

Nur so bekommst Du Innovation.

/rant

Der Teil, in dem wir kurz fragen:
Wirkt der Kaffee schon?

Die Variablen im KI-Spiel

Compute, RAM, Models, Software, Wissen

Das waren die Modelle, jetzt kommt die Hardware.

4 5 Klassen Potato, Slow Horse, Apple, E-Heizung, Kleinwagen bis S-Klasse

Potato

<1 ... Faktoren "sin jeföhlt"

KI auf einem Raspberry Pie 4 ... es geht, aber warum?

Slow Horse

<100

Mein Tipp für Archive. Auch

Eat your own dogfood

Apple

100-1000, depends

Nein, nicht Apple Intelligence 🙄 sondern nur Pro & Max Geräte ab 64 GB.

Mittelschnell und vor allem leise & energiesparsam

E-Heizung für die Küche

>200

Sowas hier Rechner zusammenbauen (lassen) - und GPUs kombinieren. Ziel: 24 GB und größer GPU Kapazität Goldener Horizont Wers glaubt

Kleinwagen bis S-Klasse

>1000

Was sagt idealo Die Geräte kann man auch über einen Bus koppeln. Dann kostet es gleich doppelt so viel.

Die 38.675€ Frage ist ja: Was (er)spare ich (mir)?

RAM also Speicher

Also KI braucht Speicher und zwar den schnellsten - Hauptspeicher.

Ansonsten kannst Du es auch gleich mit der Hand ausrechnen.

Größen der LLMs

Der Code ist nicht das Problem…

Was	Code	Weights
OpenAI GPT3.5	700 mb	350 GB
OpenAI GPT 4	900 mb	6,4 TB *
Laama 2 7B	300 mb	14 GB

Nur, wenn die dort Lack gesoffen und alles mit full float & unpruned laufen lassen.

Und dann gibt es die Qualitäten

Name	Faktor	Notizen	Typ*
FP16	1	Fließkommagenau	UHQ
FP8	1/2	Halbe Genauigkeit	VHQ
Q4.1	5/16	Nutzbar mit extras	GQ
Q4	1/4	Nutzbar	SD
Q1	1/16	"Ich rechne nicht"	LOL

(und jede Menge Qs dazwischen, Typenbezeichnung nur für die Einordnung)

Ich möchte LLaMA 2 auf meinem Raspberry 4 laufen lassen (4GB)

Geht das und welche(s) Q brauche ich? Nur KI? dann geht Q4 - 3,5 GB für die Weights + Runtime 300MB

Wer macht solche Modelle? Unter anderem UnSloth

Rechenaufgabe

Damit Ihr es verstanden habt

Deep Seek 671B: Wie groß ist die 16Bit Variante? Wie groß ist die kleinste Q-Variante q1?

LLaMA Maverick 17B / 400B / 128 Experts: Wie groß? Und was heißt 17/400? Was braucht man für den Kontext 1 MioToken?

LLaMA Scout 17B / 109B / 16 Exp Wie groß? Und was heißt 17/109? Was braucht man für den Kontext 10MioToken?

Neue Tricks

Experten!!1!

Neue Modelle sind z.B. 109 B groß (ursprünglich) , aber die Experten sind kleiner und es wird mindestens ein Experte "ausgesucht" der geladen und dann ausgeführt wird.

LLaMA 4

Feature	Llama 4 Scout	Llama 4 Maverick
Multimodal	Input: Text + up to 5 images, Output: Text-only
Multilingual	Arabic, English, French, German, Hindi, Indonesian, Italian, Portuguese, Spanish, Tagalog, Thai, and Vietnamese. Image understanding is English-only.
Active parameters	17B
# Experts	16	128
Abs params	109B	400B
Single GPU?	Yes	No
Context	10M tokens	1M tokens

Oh stimmt ...

... da waren ja noch die Contextfenster

Rate mal:
Was passiert, wenn das Kontextfenster (Output) erreicht wird?
Was passiert, wenn das Kontextfenster (Input) erreicht wird? Bonus: Warum ist das größer?
Was ist ein rollendes Kontextfenster und wo ist das keine gute Idee?

AKA KI-Typen und dann kommt der Handson-Teil

Completion, Chat, Instruction, Reason

Die vier apokalyptischen FT-Reiter der LLMS

Completion

auch bekannt als Base, Foundation, RAW

Rolle	Antwort
[User]	Alles hat ein Ende nur die Wurst hat
[Assistant]	zwei

Chat

Rolle	Antwort
[System]	Yadda Yadda Yadda°
[User]	What is the capital of germany?
[Assistant]	The capital of Germany is Berlin since 1990. Before that it was Bonn. Do you want to know more about german History?

° Je nach dem wo Du ein Chat-Model triffst, hat es einen ausführlichen Systemprompt. Tja.

Instruction

Rolle	Antwort
[User]	What is the capital of Germany?
[Assistant]	The capital of Germany is Berlin.

Reason :-/

Rolle	Antwort
[User]	Hallo, wie gehts?
[Reason]	Also der Nutzer hat mich gefragt wie es mir geht und erwartet eine Antwort wie "Okay", "Muss", "Gut", ... Gleichzeitig weiss der Nuetzer, dass ich kein Mensch bin und daher ist die Frage möglicherweise ein Test auf den ich antworten sollte "Ich bin eine Maschine, es geht mir immer gut". Andererseits wäre das nicht lustig
[Assistant]	Okay.

Also: 1,2,3 oder 4?

Wo kommen die Modelle her?

"Die Quelle allen ..."

Ollama / HuggingFace

Praxis

Lieber Gefroren oder Bestimmt?

Mathe π x 👍🏻

Meine slow KI schafft 1 Dokument pro Minute, wie lange dauert mein Archiv?

Dokumente	pro
ca. 1.400	Tag
ca. 10.000	Woche
ca. 130.000	im Quartal
ca. 500.000	im Jahr

Vertiefung mit Fragen / Lösungen

Recherche
Archiv
Investigation

Mail für async

(Nickel and Dime Version)

Unzensiert / Sicherheit (Zensur als Schutz)

Uncensored Modelle
Build: Finetuning anders / fehlt
Hacked: Entfernung der Sicherheitsfeatures
Don't care: Neue Modelle hemmungloser außer IntProp
Safety Modelle von Meta & Google

ad-Hoc Arbeitsgruppe Investigative KI (AAGKI)

Es reicht nicht, das wir uns 1-2 im Jahr treffen und austauschen. Wir haben jetzt verbreitet das Wissen und stabile Werkzeuge. Statt das wir jedes Problem alleine und vereinzelt lösen, sollten wir uns austauschen. Was geht? Was geht nicht? Woran arbeiten wir, wenn wir das sagen können damit wir uns gegenseitig unterstüzten können? Weil: KI ist gerade der Endgegner des Journalismus. (Mal wieder einer)

Von meiner Seite:

Ich würde das ein Jahr unterstüzten, mit Infra, Wissen & Geld (d.h. kostenneutral)
Ein Jahr, weil das eine gute Zeit ist Leute einzuführen (wenn überhaupt nötig) und dann andere das machen zu lassen. Wenn Strukturen stabil sind, dann solche die von Anfang an lernen, wie man wechselt und wechsel lebt.
Netzwerk Recherche? Ne Stiftung? Ein Bund? Wenn ich dazu was sagen darf: Ich hätte gerne was ohne den Einfluss der schon eh üblichen Verdächtigen. Also: Die können gerne helfen, aber die haben schon genug.
Und lassen wir ÖR/Privat bitte draußen. Ich kann Statistiken gut genug lesen das wir uns alle gegenseitig brauchen werden - als Nachrichtensystem. Das ist wie mit den Lücken bei den Geschäften in der Innenstadt.

Maßnahmen aus der Grabbelbox

KI Datenträger mit eigenen Metadaten
Genaue Trennung / Definition was mit KI modifiziert wurde
Modelle archivieren - und die dazu gehörige Software
Virtualisierung quem oder docker
CPU ist - mit einschränkungen kein Problem, eher OS
Linux as Storage & Metadata
bei "Langsamer" KI ist Datenträger-geschw. kein Ding, erst bei schneller KI und für Modellbereitstellung

17 KiB Raw Blame History Unescape Escape

Lokale Künstliche Intelligenz für Investigation, Recherche und Archiv