NVIDIA Triton Inference Server (2024)

KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.

Jetzt starten

  • Einführung
  • Vorteile
  • Jetzt starten
  • Erfolgsgeschichten
  • Anwender
  • Ressourcen
    • Einführung
    • Vorteile
    • Jetzt starten
    • Erfolgsgeschichten
    • Anwender
    • Ressourcen
    • Einführung
    • Vorteile
    • Jetzt starten
    • Erfolgsgeschichten
    • Anwender
    • Ressourcen

    Vertrieb kontaktieren

    Inferenz für jeden KI-Workload

    Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise. Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jeden Workload standardisiert.

    Vorteile von Triton Inference Server entdecken

    Unterstützt alle Frameworks für Training und Inferenz

    Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.

    Hochleistungs-Inferenz auf jeder beliebigen Plattform

    Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm®-CPUs sowie AWS Inferentia.

    Entwickelt für DevOps und MLOps

    Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps-Plattformen verwendet werden.

    Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau

    NVIDIA AI Enterprise, mit NVIDIA Triton Inference Server und Triton Management Service, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.

    Erste Schritte mit Triton

    NVIDIA AI Enterprise mit Triton für die Produktionsbereitstellung kaufen

    Kaufen Sie NVIDIA AI Enterprise, das NVIDIA Triton Inference Server und Triton Management Service für Produktionsinferenz umfasst.

    Testversion von Triton Inference Server auf NVIDIA LaunchPad anfordern

    Kontaktieren Sie uns, um mehr über den Kauf von Triton zu erfahren

    Container und Code für die Entwicklung herunterladen

    Triton Inference Server-Container sind verfügbar auf NVIDIA NGC™ und als Open-Source-Code auf GitHub.

    Auf NGC herunterladen

    Entdecken Sie weitere Ressourcen für die Entwicklung

    Triton Management Service

    Automatisieren Sie die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourceneffizienter Modellorchestrierung auf GPUs und CPUs.

    Mehr erfahren

    Funktionen und Tools

    Inferenz für Large Language Models

    TensorRT-LLM, im Early Accessverfügbar, ist eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von Large Language Models (LLM) für die Inferenz in der Produktion. Die Kernfunktionalität von FasterTransformer wird zusammen mit dem Deep-Learning-Compiler von TensorRT in einer Open-Source-Python-API beibehalten, um neue Modelle und Anpassungen schnell zu unterstützen.

    Early Access für TensorRT-LLM anfordern

    Modell-Ensembles

    Viele moderne KI-Workloads erfordern die Ausführung mehrerer Modelle, häufig mit Vor- und Nachverarbeitungsschritten für jede Abfrage. Triton unterstützt Modell-Ensembles und -Pipelines, kann verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausführen und ermöglicht mehrere Frameworks innerhalb des Ensembles.

    Mehr über Modell-Ensembles erfahren

    Baumbasierte Modelle

    Das Backend der Forest Inference Library (FIL) in Triton bietet Unterstützung für die Hochleistungs-Inferenz von baumbasierten Modellen mit Erklärbarkeit (SHAP-Werte) auf CPUs und GPUs. Es unterstützt Modelle von XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest und anderen im Treelite-Format.

    Mehr über baumbasierte Modelle erfahren

    NVIDIA PyTriton

    PyTriton bietet eine einfache Schnittstelle, mit der Python-Entwickler Triton für beliebige Zwecke einsetzen können – für Modelle, einfache Verarbeitungsfunktionen oder ganze Inferenzpipelines. Diese native Unterstützung für Triton in Python ermöglicht schnelles Prototyping und Testen von Modellen für maschinelles Lernen mit Leistung und Effizienz. Triton wird mit einer einzigen Codezeile aufgerufen und bietet Vorteile wie dynamisches Batching, simultane Modellausführung und Unterstützung für GPU und CPU. Dadurch entfällt die Notwendigkeit, Modell-Repositorys einzurichten und Modellformate zu konvertieren. Vorhandener Inferenz-Pipeline-Code kann ohne Änderungen verwendet werden.

    NVIDIA Triton Model Analyzer

    Triton Model Analyzer ist ein Tool, das Modellbereitstellungskonfigurationen in Triton Inference Server automatisch auswertet, z.B. Batchgröße, Präzision und Instanzen für simultane Ausführung auf dem Zielprozessor. Es hilft bei der Auswahl der optimalen Konfiguration, um Einschränkungen hinsichtlich Anwendungsqualität (QoS) wie Latenz, Durchsatz und Speicheranforderungen zu erfüllen, und verringert die Zeitdauer, die zum Finden der optimalen Konfiguration erforderlich ist. Dieses Tool unterstützt auch Modell-Ensembles und Multi-Modell-Analysen.

    Erfolgsgeschichten

    Erfahren Sie, wie Amazon die Kundenzufriedenheit mit NVIDIA-KI verbesserte, indem es die Inferenz um das Fünffache beschleunigte.

    Mehr erfahren

    Erfahren Sie, wie American Express die Betrugserkennung durch die 50Mal schnellere Analyse von Millionen von Transaktionen pro Tag verbesserte.

    Mehr erfahren

    Erfahren Sie, wie Siemens Energy Inspektionen durch KI-basierte Fernüberwachung auf Lecks, anomale Geräusche und vieles mehr verbesserte.

    Mehr erfahren

    Erfahren Sie, wie Microsoft Teams mithilfe von Triton Inference Server Live-Untertitel und Transkriptionen in mehreren Sprachen mit sehr geringer Latenz optimierte.

    Mehr erfahren

    Erfahren Sie, wie NIO einen Inferenz-Workflow mit geringer Latenz umsetzte, indem es den NVIDIA Triton Inference Server in die Inferenzpipeline für autonomes Fahren integrierte.

    Mehr erfahren

    Weitere Ressourcen

    Einführung ansehen

    Lernen Sie die wichtigsten Funktionen von Triton Inference Server kennen, mit denen Sie KI-Modelle in der Produktion ganz einfach bereitstellen, ausführen und skalieren können.

    Jetzt lesen

    Das sagen Experten

    Sehen Sie sich die GTC-Sessions zu Inferenz und den ersten Schritten mit Triton Inference Server an.

    Jetzt ansehen

    Technische Blogs erkunden

    Lesen Sie Blogs über Triton Inference Server.

    Blogs zu NVIDIA Triton Inference Server erkunden

    E-Book ansehen

    Entdecken Sie die moderne Landschaft der KI-Inferenz, Produktions-Anwendungsfälle von Unternehmen sowie Herausforderungen und Lösungen aus der Praxis.

    Jetzt lesen

    Bleiben Sie auf dem Laufenden über die neuesten KI-Inferenz-Nachrichten von NVIDIA.

    Anmeldung

    NVIDIA Triton Inference Server (2024)
    Top Articles
    Latest Posts
    Article information

    Author: Stevie Stamm

    Last Updated:

    Views: 6395

    Rating: 5 / 5 (80 voted)

    Reviews: 87% of readers found this page helpful

    Author information

    Name: Stevie Stamm

    Birthday: 1996-06-22

    Address: Apt. 419 4200 Sipes Estate, East Delmerview, WY 05617

    Phone: +342332224300

    Job: Future Advertising Analyst

    Hobby: Leather crafting, Puzzles, Leather crafting, scrapbook, Urban exploration, Cabaret, Skateboarding

    Introduction: My name is Stevie Stamm, I am a colorful, sparkling, splendid, vast, open, hilarious, tender person who loves writing and wants to share my knowledge and understanding with you.