TheNERDad LLM

CORTEX PRIME.
Lokal. Stabil. Praktisch.

Cortex Prime ist nicht nur ein Server – es ist ein vollständig durchdachtes On-Premise KI-Ökosystem, entwickelt für Teams mit höchsten Anforderungen an Datensouveränität und niedrige Latenz. Gleichzeitig ist es kein gewöhnliches Installationsskript, sondern die Betriebsanleitung für ein eigenes KI‑Rechenzentrum. In weniger als einer Stunde verwandelt es einen leeren Ubuntu‑Server in eine vollständig orchestrierte Plattform: mit RAM‑Drive für latenzfreie Antworten, integrierter Code‑Intelligenz (DeepWiki + Gitea) und einem durchdachten Monitoring‑Stack. Du sparst Monate an Entwicklungszeit, vermeidst teure Cloud‑Abhängigkeiten und erhältst eine wartbare, reproduzierbare Lösung, die auch strengste Datenschutzanforderungen erfüllt. Keine Bastelei, kein Vendor‑Lock‑in – nur eine professionelle KI‑Infrastruktur, die dir gehört.


Warum Cortex Prime?

Die Antwort auf Cloud-Abhängigkeit und Datenschutzbedenken in der modernen Softwareentwicklung.

Absolute Datenhoheit

100% Air-gapped fähig. Firmeneigener Quellcode und sensible Dokumente verlassen zu keinem Zeitpunkt die eigene Hardware. Kein Vendor-Lock-in, keine versteckten Telemetriedaten.

Zero-I/O Performance

Die Limitierung herkömmlicher Festplatten wird durch ein dediziertes Hochgeschwindigkeits-RAM-Drive umgangen. Vektordatenbanken und aktive KI-Modelle operieren latenzfrei im Arbeitsspeicher.

Tiefes Code-Verständnis

Dank der Kombination aus hochpräzisem Parsing (Docling), hybrider Vektorsuche und mächtigen Reranking-Modellen navigiert die KI mühelos durch komplexe Software-Architekturen.

Technischer Tiefgang

Das 3-Ebenen Modell

Strikte logische und physische Trennung garantiert Ausfallsicherheit, nahtlose Upgrades und optimalen Schutz sensibler Daten.

1
Applikationsschicht (Docker) Modulare Microservices für Chat, RAG und Management. Vollständig containerisiert für einfache Wartung.
2
OS & Inferenz (Bare-Metal) Betriebssystem und KI-Engine (Ollama) direkt auf der Hardware für ungebremsten GPU-Zugriff.
3
Hardware & Storage Isolation Physisch getrennte Laufwerke für OS und Nutzerdaten. RAM-Drive als dedizierter Hot-Path.

Architektur-Übersicht

flowchart TB
    subgraph A["Applikationsschicht (Docker)"]
        direction LR
        WEBUI["Open WebUI"]
        PIPE["Pipelines"]
        DOC["Docling"]
        QD["Qdrant"]
        DW["DeepWiki"]
        GT["Gitea"]
    end

    subgraph B["Host-Dienste (Bare-Metal)"]
        OLL["Ollama\n(native Inferenz)"]
        SYN["Sync / Backup"]
    end

    subgraph C["Hardware-Ressourcen"]
        GPU["NVIDIA GPU\n( direkt angebunden )"]
        RAM["RAM-Drive\n(Latenzfrei)"]
        SSD["SSD\n(Persistenz)"]
    end

    WEBUI --> PIPE & QD & OLL
    PIPE --> DOC
    DW --> GT & OLL
    OLL --> GPU & RAM
    QD --> RAM
    SYN -.-> SSD

    classDef app fill:#FFFFFF,stroke:#E2E8F0,stroke-width:1.5px,color:#1A2C3E;
    classDef host fill:#F8FAFE,stroke:#CBD5E1,stroke-width:1.5px,color:#2A7FE1;
    classDef hw fill:#F1F5F9,stroke:#94A3B8,stroke-width:1.5px,stroke-dasharray: 4 4,color:#475569;
    class WEBUI,PIPE,DOC,QD,DW,GT app;
    class OLL,SYN host;
    class GPU,RAM,SSD hw;
                        

Von der Applikation über die Host-Ebene bis zur Hardware: klare Trennung der Verantwortlichkeiten.

Das Microservice-Setup

Orchestrierte Intelligenz

Jeder Service im Cortex Prime Oekosystem hat eine exakt definierte Aufgabe. Aktuell umfasst der Stack Open WebUI, Pipelines, Docling, Qdrant, DeepWiki, Gitea, Homepage, Dockge, Uptime Kuma, Gotify, Frontail und optional RackPeek.

Hinweis: Ollama bleibt absichtlich nativ auf dem Host und laeuft nicht als Docker-Container.

Open WebUI

Das Cockpit

Modernes Frontend fuer Chat, Projekte und Wissensraeume. Es steuert den Nutzerfluss und verbindet die Kernservices zu einem klaren Arbeitsablauf.

Die KI-Engine

Das Gehirn

Ollama laeuft bewusst nativ auf dem Host statt im Container. So bleibt der GPU-Zugriff direkt und die Inferenz stabil bei hoher Last.

Qdrant DB

Der Vektor-Tresor

Vektor-Datenbank fuer semantische Suche und Wissenskontext. Im Betrieb liegt sie im RAM-Drive und liefert schnelle Treffer fuer RAG-Anfragen.

Docling & Pipelines

Die Dokumenten-Analysten

Diese Kette bereitet Dokumente sauber fuer RAG vor. Docling extrahiert Struktur aus Dateien, Pipelines uebergibt den Inhalt kontrolliert an Suche und Chat.

Ops & Monitoring

Das Kontrollzentrum

Monitoring und Betrieb laufen ueber Homepage, Dockge, Kuma, Frontail und Gotify. So sind Status, Logs und Alarme zentral sichtbar.

DeepWiki

Code-Wiki

DeepWiki baut aus Repositories eine durchsuchbare Wissensbasis auf. Teams verstehen dadurch Architektur, Abhaengigkeiten und Codebereiche schneller.

Gitea

Git-Server lokal

Gitea verwaltet Repositories, Branches und Pull-Requests im eigenen Netz. Zusammen mit DeepWiki entsteht ein lokaler Entwicklungsfluss ohne Cloud-Abhaengigkeit.

Der intelligente Wissensraum

Standard-KI stößt bei komplexem Software-Code oft an ihre Grenzen. Cortex Prime löst dies durch eine ausgeklügelte Datenpipeline: Wissen wird erst strukturiert, dann clever gesucht und abschließend hochwertig formuliert.

1

Verstehen (Parsing)

Das System übernimmt komplexe Handbücher und Quelltexte und übersetzt deren Layout-Struktur originalgetreu in maschinenlesbares Markdown.

2

Finden (Hybrid Search)

Fragen an das System nutzen eine kombinierte Suche: Semantische Bedeutung (Vektoren) trifft auf exakte Stichwort-Treffer (BM25).

3

Antworten (Reranking)

Ein spezialisiertes Reranking-Modell bewertet die Relevanz der gefundenen Snippets, bevor das Haupt-Sprachmodell die finale, halluzinationsfreie Antwort generiert.

Ablauf im Wissensraum

sequenceDiagram
    autonumber
    participant U as User
    participant W as WebUI
    participant D as DeepWiki
    participant G as Gitea
    participant P as Parser
    participant V as Vektor-DB
    participant R as Reranker
    participant M as LLM Engine

    U->>W: Stellt spezifische Code-Frage
    W->>D: Optional Code-Wiki Kontext anfordern
    D->>G: Repository-Struktur lesen
    D-->>W: Relevante Code-Kontexte liefern
    W->>V: Hybride Suche (Vektor + Keyword)
    V-->>R: Liefert Roh-Treffer (Top 20)
    R-->>W: Bewertet Relevanz (Top 5 Snippets)
    W->>M: Kontext + Prompt übergeben
    M-->>W: Generiert fundierte Antwort
    W-->>U: Präsentiert saubere Lösung
                        

Ablauf: Anfrage -> Retrieval -> Reranking -> Antwort.

Die nächste Stufe

Grenzenlose Möglichkeiten

Cortex Prime ist nicht nur ein Werkzeug, sondern eine zentrale Schaltzentrale. Verbinde externe Systeme und lass die KI für dich handeln.

Code Intelligence

Automatisierte Code-Wikis (DeepWiki)

Schluss mit veralteten Readme-Dateien. Durch den Einsatz einer lokalen DeepWiki-Instanz verwandelt Cortex Prime nackte Quellcode-Repositories vollautomatisch in interaktive, KI-gestützte Dokumentationen.

  • Architektur auf Knopfdruck Das System scannt deine Repositories und generiert selbstständig visuelle System-Diagramme, Abhängigkeitsgraphen und ausführliche Funktionserklärungen.
  • Nahtlose MCP-Anbindung Über den DeepWiki-MCP-Server greift Cortex Prime direkt auf dieses strukturierte Wissen zu. Du kannst mit deiner gesamten Codebase chatten, ohne dass eine einzige Zeile Code ins offene Internet übertragen wird.

DeepWiki Integrationsfluss

flowchart LR
    Gitea[(Gitea Git-Server)]
    DW[DeepWiki Engine]
    Ollama[Ollama API]
    MCP((MCP Server))
    Cortex[Cortex Prime]

    subgraph Doku["Auto-Dokumentation"]
        Parse[Parsing]
        Graphs[Visualisierung]
        Docs[Markdown Docs]
        Mer[Mermaid Diagramme]
    end

    Gitea -->|Repository Sync| DW
    DW -->|Code-Kontext| Ollama
    DW --> Parse
    DW --> Graphs
    Parse --> Docs
    Graphs --> Mer
    Docs --> MCP
    Mer --> MCP
    MCP <--> Cortex

    classDef default fill:#FFFFFF,stroke:#DEE2E6,stroke-width:1px,color:#343A40;
    classDef core fill:#2A7FE1,stroke:#0072FF,stroke-width:1px,color:#FFFFFF,font-weight:bold;
    classDef service fill:#F8F9FA,stroke:#4FACFE,stroke-width:1px,color:#343A40;

    class DW,Cortex core;
    class Gitea,Ollama,MCP,Parse,Graphs,Docs,Mer service;
                        

Von Gitea ueber DeepWiki bis zur Nutzung in Cortex Prime.