17 KiB
title | description | tags | robots | lang | breaks | type | slideOptions | ||||
---|---|---|---|---|---|---|---|---|---|---|---|
Lokale KI V3 | A presentation for Netzwerk Recherche 2025 | künstliche Intelligenz, KI, AI, Recherche, Archiv | noindex, nofollow | de-de | true | slide |
|
[46670, 11, 4629, 134577, 14082, 25881, 6058, 2434, 7966, 13]
(Nein, nicht aus LOST ... sonst wäre es[4, 8, 15, 16, 23, 42] )
Lokale Künstliche Intelligenz für
Investigation, Recherche und Archiv
NR2025 Harte Zeiten|Harte Fakten
Sebastian Mondial | Spezialist für KI / LLMs im SWR
Seufz
Ich hätte auch schreiben können:
Mit dem Bus, aufm Schiff und in der Luft
Immerhin eine Gemeinsamkeit: Geht alles Lokal
Die Zeiten ändern sich (nicht)
1995: It can't be that stupid, I must be using it wrong
2010: It can't be that stupid, I must be googling it wrong
2025: It can't be that stupid, I must be prompting it wrong
Veränderung des (Arbeits-)Markts
Kreuz machen kostet mit KI nur noch 1€
Wissen wie & wo man es macht
sind jetzt die anderen 999€
Und es hat sich noch was geändert: Ohne Zeit/Kohle geht es nicht. Es gibt außer der "bösen" externen KI keine Knopfdruck-Lösung. Sorry.
Das ist ein Braindump Workshop
Was ist die Eure Arbeit? Nun:
- Transfer (in die eigene Arbeitswelt)
- Fragen stellen
- Spekulieren und Fantasieren
(und ich bin der Shop, LOL)
Ja. (Bekommen wir die Folien?)
HIER. (Und wo liegen die?) -> git.h2h.de
Signal. (Wo kann ich spezielle Fragen stellen?)
Außerdem in Teams für die LRAs / ZDF
JA. (Meinst Du das mit der aAG investigative KI ernst?) (Mehr dazu am Ende ... 😎)
Muss ich mich noch vorstellen?
Okay, 3 Dinge über mich:
- Katzen
- Eine investigative Suchmaschine aus Vers(t)ehen
- Alles ist Lego
Katzen
Eine investigative Suchmaschine aus Vers(t)ehen
Alles ist Lego
Technik ist von Magie nicht unterscheidbar, wenn man nicht die Grundfunktionen und Zusammenhänge beherrscht. Ich bevorzuge Lego: Ich weiss, was der Stein soll
Und vor 18 Jahren hatte ich meinen ersten Talk hier: Datenjournalismus.
Vielleicht ist es Zeit Platz zu machen? #OldWhiteDudes
1️⃣ Ich habe jetzt erst mal ein paar Fragen
- Wer hat hier - im Job / privat ein KI-Abo?
- Wer nutzt NotebookLM?
- Wer nutzt Perplexity?
- Wer nutzt was "esoterisches" - z.B. DeepSeek?
Warum ich frage? Es gibt zwei Welten
- Welt - Du nutzt ChatGPT, Claude, ... oder was Vorgefertigtes: Login über www.chatgpt.com oder so.
- Welt - Du nutzt GPT4, Opus, .. über eine API (kann sein, dass Du das noch nicht mal weißt)
(Ja, dieser Teil hat noch nichts mit lokaler KI zu tun)
Selbst wenn Dir / Euch das alles danach hier zu kompliziert ist. Hier ist schon mal die direkte Verbesserung Deiner KI-Handhabe:
- Geh auf die API. Hol Dir KI als PpV
- Verzichte auf den Systemprompt (mehr oder midner), Speicherung Deiner Daten* und Training mit Deinen Dokumenten**
* Siehe Prozess gegen OpenAI in den USA
** API Zugriffe sind bei allen großen Anbietern zur Zeit (12.06.25) vom Training ausgeschlossen
Was ich ja ernsthaft nicht verstehe, warum die Domains der Anbieter - nicht die der API - aber der normalen KI nicht gesperrt sind. Ich meine, ich kenne aus einem Kontakt die DNS-Zugriffe intern aus einem Haus ... meine Fresse.
Kosten für Normalnutzende niedriger, Kein Aussperren für Vielnutzer und z.B. Batch KI (Discounts!)
Bessere Datenhandhabe und Auswahl, Auswahl, Auswahl
Was ist ein guter Systemprompt? Das neutralste und kürzeste, welcher zu einem Modell empfohlen wird + Tippersparnis.
Beispiel: "You are a helpful assistant. Please reply in german." ~11-12 Token "Du bist ein hilfreicher Assistent. Bitte antworte auf Deutsch." ~15 Token (older 26)
Das sieht nicht nach viel aus, aber bei kleinen Tokenfenstern und lernschwachen Modellen ... oh jeh.
Übrigens ist die "Große" KI nicht wegen sondern trotz der Systemprompts gut.
Was passiert eigentlich, wenn ein PDF Datei auf ein KI-Modell trifft
auch bekannt als "Sprich mit deinem PDF"
Eine andere unschuldige Frage:
Wer hier kennt und schreibt mit Markdown?
Weil Markdown ist der Cheatcode für KI
Strukturierter Input in Markdown wird von - mir sind bislang keine Ausnahmen bekannt - allen Modellen am Besten verarbeitet.
(Okay kleine Ausnahme: Super-Spezial Modelle wie Safety Classifier, Vectorizer, ... )
Der Erfinder hat das nur fürs Bloggen gemacht. Aber die Sprache ist so mächtig wie unvollständig - und damit gibt es erst mal weniger Sonderfälle, eine Zuspitzung zur strukturierten Konformität.
Es gibt zwar Fussnoten, aber nicht so einen CLusterfuck wie bei Word.
Es gibt keine Fonts, keine Schriftgrößen, keine Textboxen, keine Sonderformatierungen. Nur Zeichen und die sind alle als Einzeltoken erfasst und gut gelernt.
Also wer gewinnt, wenn alle die gleichen KI-Modelle haben beim Einlesen der Investigativen PDFs? Oder der PDF-Recherche? Oder dem Archivbeitrag in PDF-Form?
Die Person mit der Original-Datei
Okay, sorry, das ist gemein
Die mit den meisten und/oder bestem PDF Converter
Weil Struktur ist bei "Restriktion" ausschlaggebend.
Aber ich habe nur bei den Freaks bislang eine Auswahl an PDF-Convertern gesehen.
Wer hat den besten PDF2Markdown Converter? Weiss ich nicht. Ich bin kein PDF Spezialist.
Aaaaber, ein geschätzter Kollege hat einen Spass aka mehr Arbeit mit https://github.com/microsoft/markitdown/issues
Weil ... da kam teilweise nix raus. Also als PDF aus PDFs
[Problemverdeutlichung - Link in Liste)
Der Vollständigkeit halber noch eine Ausnahme: Multimodale Modelle verleiben sich PDFs auch visuell ein. Das ist bislang auch nicht meine Zielgruppe.
Wiederhole das mit fast jedem nicht-visuellen Datenformat:
.doc, .pages, .xls, .ppt, .pptx, ...
.
Bei anderen Dateien sind es die Filter (oder zusätzlich)
Beispiel: eMails - Full Ingest 3843 Token, Message 233 Token
Zusammenfassung je nach Modell okay bis ojeh
[Problemverdeutlichung]
Wie gut is Vision?
Nun, nimm ein Bild was Du für normal hälst und mache es 4x kleiner Oder Objekte aufreihen, und die lässt Du zählen
Das ist kein
AI Erklärkurs *
Tech Support *
List of ... *
* vielleicht doch, LOL
Das ist ein
Volle-Kontrolle Workshop
Ich versteh das und kann das
Das zahlt sich im laufe der Zeit aus
Alles lässt sich entweder mit Geld, Zeit oder Aufmerksamkeit lösen - oder einer Kombination.
Wir machen heute keine ...
Agenten
... weil das mehr KI in Serie ist, aber mehr KI löst nur komplexere Probleme mit mehr KI.
MCP
... weil das ein verdammtes Sicherheitsabltraumrisiko ist (auch lokal) und ich das erst anfasse, wenn ich mich eine Woche damit einschließen kann.
LORA und RAG
... das sind hilfen für KI um große Wissensmengen durchsuchbar zu machen. Fein. Aber sehr speziell und wir haben nur 2h.
Langzeitziele
- Einmal einrichten: Läuft
- Lässt sich auch noch in 10 Jahren benutzen
- Ist replizierbar, d.h. Ergebnisse bleiben gleich
- Niedrige Komplexität
Minimales Setup für lokale KI
- Computer mit Admin (ASK)
- Container (Was ist das?) oder Backup
1624 GB und mehr Speicher- Zeit LOL, und einen Qualitäts-KI Anbieter fürs Schummeln
Kurzrant Risikomanagement
Beschaff mir einen f*** Computer mit guter Ausstattung, einen DSL-Anschluss und vertrau mir, dass ich da keinen Scheiss installiere.
Zur not plätte den Rechner jede Woche oder auf Knopfdruck.
Nur so bekommst Du Innovation.
/rant
Der Teil, in dem wir kurz fragen:
Wirkt der Kaffee schon?
Die Variablen im KI-Spiel
Compute, RAM, Models, Software, Wissen
Das waren die Modelle, jetzt kommt die Hardware.
4 5 Klassen
Potato, Slow Horse, Apple, E-Heizung, Kleinwagen bis S-Klasse
Potato
<1 ... Faktoren "sin jeföhlt"
KI auf einem Raspberry Pie 4 ... es geht, aber warum?
Slow Horse
<100
Apple
100-1000, depends
Nein, nicht Apple Intelligence 🙄 sondern nur Pro & Max Geräte ab 64 GB.
Mittelschnell und vor allem leise & energiesparsam
E-Heizung für die Küche
>200
Sowas hier Rechner zusammenbauen (lassen) - und GPUs kombinieren. Ziel: 24 GB und größer GPU Kapazität Goldener Horizont Wers glaubt
Kleinwagen bis S-Klasse
>1000
Was sagt idealo Die Geräte kann man auch über einen Bus koppeln. Dann kostet es gleich doppelt so viel.
Die 38.675€ Frage ist ja: Was (er)spare ich (mir)?
RAM also Speicher
Also KI braucht Speicher und zwar den schnellsten - Hauptspeicher.
Ansonsten kannst Du es auch gleich mit der Hand ausrechnen.
Größen der LLMs
Der Code ist nicht das Problem…
Was | Code | Weights |
---|---|---|
OpenAI GPT3.5 | 700 mb | 350 GB |
OpenAI GPT 4 | 900 mb | 6,4 TB * |
Laama 2 7B | 300 mb | 14 GB |
- Nur, wenn die dort Lack gesoffen und alles mit full float & unpruned laufen lassen.
Und dann gibt es die Qualitäten
Name | Faktor | Notizen | Typ* |
---|---|---|---|
FP16 | 1 | Fließkommagenau | UHQ |
FP8 | 1/2 | Halbe Genauigkeit | VHQ |
Q4.1 | 5/16 | Nutzbar mit extras | GQ |
Q4 | 1/4 | Nutzbar | SD |
Q1 | 1/16 | "Ich rechne nicht" | LOL |
(und jede Menge Qs dazwischen, Typenbezeichnung nur für die Einordnung)
Ich möchte LLaMA 2 auf meinem Raspberry 4 laufen lassen (4GB)
Geht das und welche(s) Q brauche ich? Nur KI? dann geht Q4 - 3,5 GB für die Weights + Runtime 300MB
Wer macht solche Modelle? Unter anderem UnSloth
Rechenaufgabe
Damit Ihr es verstanden habt
Deep Seek 671B: Wie groß ist die 16Bit Variante? Wie groß ist die kleinste Q-Variante q1?
LLaMA Maverick 17B / 400B / 128 Experts: Wie groß? Und was heißt 17/400? Was braucht man für den Kontext 1 MioToken?
LLaMA Scout 17B / 109B / 16 Exp Wie groß? Und was heißt 17/109? Was braucht man für den Kontext 10MioToken?
Neue Tricks
Experten!!1!
Neue Modelle sind z.B. 109 B groß (ursprünglich) , aber die Experten sind kleiner und es wird mindestens ein Experte "ausgesucht" der geladen und dann ausgeführt wird.
LLaMA 4
Feature | Llama 4 Scout | Llama 4 Maverick |
---|---|---|
Multimodal | Input: Text + up to 5 images, Output: Text-only | |
Multilingual | Arabic, English, French, German, Hindi, Indonesian, Italian, Portuguese, Spanish, Tagalog, Thai, and Vietnamese. Image understanding is English-only. | |
Active parameters | 17B | |
# Experts | 16 | 128 |
Abs params | 109B | 400B |
Single GPU? | Yes | No |
Context | 10M tokens | 1M tokens |
Oh stimmt ...
... da waren ja noch die Contextfenster
Rate mal: |
---|
Was passiert, wenn das Kontextfenster (Output) erreicht wird? |
Was passiert, wenn das Kontextfenster (Input) erreicht wird? Bonus: Warum ist das größer? |
Was ist ein rollendes Kontextfenster und wo ist das keine gute Idee? |
AKA KI-Typen und dann kommt der Handson-Teil
Completion, Chat, Instruction, Reason
Die vier apokalyptischen FT-Reiter der LLMS
Completion
auch bekannt als Base, Foundation, RAW
Rolle | Antwort |
---|---|
[User] | Alles hat ein Ende nur die Wurst hat |
[Assistant] | zwei |
Chat
Rolle | Antwort |
---|---|
[System] | Yadda Yadda Yadda° |
[User] | What is the capital of germany? |
[Assistant] | The capital of Germany is Berlin since 1990. Before that it was Bonn. Do you want to know more about german History? |
° Je nach dem wo Du ein Chat-Model triffst, hat es einen ausführlichen Systemprompt. Tja.
Instruction
Rolle | Antwort |
---|---|
[User] | What is the capital of Germany? |
[Assistant] | The capital of Germany is Berlin. |
Reason :-/
Rolle | Antwort |
---|---|
[User] | Hallo, wie gehts? |
[Reason] | Also der Nutzer hat mich gefragt wie es mir geht und erwartet eine Antwort wie "Okay", "Muss", "Gut", ... Gleichzeitig weiss der Nuetzer, dass ich kein Mensch bin und daher ist die Frage möglicherweise ein Test auf den ich antworten sollte "Ich bin eine Maschine, es geht mir immer gut". Andererseits wäre das nicht lustig |
[Assistant] | Okay. |
Also: 1,2,3 oder 4?
Wo kommen die Modelle her?
"Die Quelle allen ..."
Related: Workhorse LLMs: Why Open Source Models
Dominate Closed Source for Batch Tasks
Praxis
Lieber Gefroren oder Bestimmt?
Mathe π x 👍🏻
Meine slow KI schafft 1 Dokument pro Minute, wie lange dauert mein Archiv?
Dokumente | pro |
---|---|
ca. 1.400 | Tag |
ca. 10.000 | Woche |
ca. 130.000 | im Quartal |
ca. 500.000 | im Jahr |
Vertiefung mit Fragen / Lösungen
- Recherche
- Archiv
- Investigation
Mail für async
(Nickel and Dime Version)
Unzensiert / Sicherheit (Zensur als Schutz)
-
Uncensored Modelle
-
Build: Finetuning anders / fehlt
-
Hacked: Entfernung der Sicherheitsfeatures
-
Don't care: Neue Modelle hemmungloser außer IntProp
-
Safety Modelle von Meta & Google
ad-Hoc Arbeitsgruppe Investigative KI (AAGKI)
Es reicht nicht, das wir uns 1-2 im Jahr treffen und austauschen. Wir haben jetzt verbreitet das Wissen und stabile Werkzeuge. Statt das wir jedes Problem alleine und vereinzelt lösen, sollten wir uns austauschen. Was geht? Was geht nicht? Woran arbeiten wir, wenn wir das sagen können damit wir uns gegenseitig unterstüzten können? Weil: KI ist gerade der Endgegner des Journalismus. (Mal wieder einer)
Von meiner Seite:
- Ich würde das ein Jahr unterstüzten, mit Infra, Wissen & Geld (d.h. kostenneutral)
- Ein Jahr, weil das eine gute Zeit ist Leute einzuführen (wenn überhaupt nötig) und dann andere das machen zu lassen. Wenn Strukturen stabil sind, dann solche die von Anfang an lernen, wie man wechselt und wechsel lebt.
- Netzwerk Recherche? Ne Stiftung? Ein Bund? Wenn ich dazu was sagen darf: Ich hätte gerne was ohne den Einfluss der schon eh üblichen Verdächtigen. Also: Die können gerne helfen, aber die haben schon genug.
- Und lassen wir ÖR/Privat bitte draußen. Ich kann Statistiken gut genug lesen das wir uns alle gegenseitig brauchen werden - als Nachrichtensystem. Das ist wie mit den Lücken bei den Geschäften in der Innenstadt.
Maßnahmen aus der Grabbelbox
- KI Datenträger mit eigenen Metadaten
- Genaue Trennung / Definition was mit KI modifiziert wurde
- Modelle archivieren - und die dazu gehörige Software
- Virtualisierung quem oder docker
- CPU ist - mit einschränkungen kein Problem, eher OS
- Linux as Storage & Metadata
- bei "Langsamer" KI ist Datenträger-geschw. kein Ding, erst bei schneller KI und für Modellbereitstellung