KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.
Jetzt starten
- Einführung
- Vorteile
- Jetzt starten
- Erfolgsgeschichten
- Anwender
- Ressourcen
- Einführung
- Vorteile
- Jetzt starten
- Erfolgsgeschichten
- Anwender
- Ressourcen
- Einführung
- Vorteile
- Jetzt starten
- Erfolgsgeschichten
- Anwender
- Ressourcen
Vertrieb kontaktieren
Inferenz für jeden KI-Workload
Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise. Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jeden Workload standardisiert.
Vorteile von Triton Inference Server entdecken
Unterstützt alle Frameworks für Training und Inferenz
Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.
Hochleistungs-Inferenz auf jeder beliebigen Plattform
Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm®-CPUs sowie AWS Inferentia.
Entwickelt für DevOps und MLOps
Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps-Plattformen verwendet werden.
Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau
NVIDIA AI Enterprise, mit NVIDIA Triton Inference Server und Triton Management Service, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.
Erste Schritte mit Triton
NVIDIA AI Enterprise mit Triton für die Produktionsbereitstellung kaufen
Kaufen Sie NVIDIA AI Enterprise, das NVIDIA Triton Inference Server und Triton Management Service für Produktionsinferenz umfasst.
Testversion von Triton Inference Server auf NVIDIA LaunchPad anfordern
Kontaktieren Sie uns, um mehr über den Kauf von Triton zu erfahren
Container und Code für die Entwicklung herunterladen
Triton Inference Server-Container sind verfügbar auf NVIDIA NGC™ und als Open-Source-Code auf GitHub.
Auf NGC herunterladen
Entdecken Sie weitere Ressourcen für die Entwicklung
Triton Management Service
Automatisieren Sie die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourceneffizienter Modellorchestrierung auf GPUs und CPUs.
Mehr erfahren
Funktionen und Tools
Inferenz für Large Language Models
TensorRT-LLM, im Early Accessverfügbar, ist eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von Large Language Models (LLM) für die Inferenz in der Produktion. Die Kernfunktionalität von FasterTransformer wird zusammen mit dem Deep-Learning-Compiler von TensorRT in einer Open-Source-Python-API beibehalten, um neue Modelle und Anpassungen schnell zu unterstützen.
Early Access für TensorRT-LLM anfordern
Modell-Ensembles
Viele moderne KI-Workloads erfordern die Ausführung mehrerer Modelle, häufig mit Vor- und Nachverarbeitungsschritten für jede Abfrage. Triton unterstützt Modell-Ensembles und -Pipelines, kann verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausführen und ermöglicht mehrere Frameworks innerhalb des Ensembles.
Mehr über Modell-Ensembles erfahren
Baumbasierte Modelle
Das Backend der Forest Inference Library (FIL) in Triton bietet Unterstützung für die Hochleistungs-Inferenz von baumbasierten Modellen mit Erklärbarkeit (SHAP-Werte) auf CPUs und GPUs. Es unterstützt Modelle von XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest und anderen im Treelite-Format.
Mehr über baumbasierte Modelle erfahren
NVIDIA PyTriton
PyTriton bietet eine einfache Schnittstelle, mit der Python-Entwickler Triton für beliebige Zwecke einsetzen können – für Modelle, einfache Verarbeitungsfunktionen oder ganze Inferenzpipelines. Diese native Unterstützung für Triton in Python ermöglicht schnelles Prototyping und Testen von Modellen für maschinelles Lernen mit Leistung und Effizienz. Triton wird mit einer einzigen Codezeile aufgerufen und bietet Vorteile wie dynamisches Batching, simultane Modellausführung und Unterstützung für GPU und CPU. Dadurch entfällt die Notwendigkeit, Modell-Repositorys einzurichten und Modellformate zu konvertieren. Vorhandener Inferenz-Pipeline-Code kann ohne Änderungen verwendet werden.
NVIDIA Triton Model Analyzer
Triton Model Analyzer ist ein Tool, das Modellbereitstellungskonfigurationen in Triton Inference Server automatisch auswertet, z.B. Batchgröße, Präzision und Instanzen für simultane Ausführung auf dem Zielprozessor. Es hilft bei der Auswahl der optimalen Konfiguration, um Einschränkungen hinsichtlich Anwendungsqualität (QoS) wie Latenz, Durchsatz und Speicheranforderungen zu erfüllen, und verringert die Zeitdauer, die zum Finden der optimalen Konfiguration erforderlich ist. Dieses Tool unterstützt auch Modell-Ensembles und Multi-Modell-Analysen.
Erfolgsgeschichten
Erfahren Sie, wie Amazon die Kundenzufriedenheit mit NVIDIA-KI verbesserte, indem es die Inferenz um das Fünffache beschleunigte.
Mehr erfahren
Erfahren Sie, wie American Express die Betrugserkennung durch die 50Mal schnellere Analyse von Millionen von Transaktionen pro Tag verbesserte.
Mehr erfahren
Erfahren Sie, wie Siemens Energy Inspektionen durch KI-basierte Fernüberwachung auf Lecks, anomale Geräusche und vieles mehr verbesserte.
Mehr erfahren
Erfahren Sie, wie Microsoft Teams mithilfe von Triton Inference Server Live-Untertitel und Transkriptionen in mehreren Sprachen mit sehr geringer Latenz optimierte.
Mehr erfahren
Erfahren Sie, wie NIO einen Inferenz-Workflow mit geringer Latenz umsetzte, indem es den NVIDIA Triton Inference Server in die Inferenzpipeline für autonomes Fahren integrierte.
Mehr erfahren
Ökosystemintegrationen
Triton ist die erste Wahl für skalierbare, hochleistungsfähige Inferenz. Erhältlich inAlibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine LearningundOracle Cloud Infrastructure Data Science Platform.
Weitere Ressourcen
Einführung ansehen
Lernen Sie die wichtigsten Funktionen von Triton Inference Server kennen, mit denen Sie KI-Modelle in der Produktion ganz einfach bereitstellen, ausführen und skalieren können.
Jetzt lesen
Das sagen Experten
Sehen Sie sich die GTC-Sessions zu Inferenz und den ersten Schritten mit Triton Inference Server an.
Jetzt ansehen
Technische Blogs erkunden
Lesen Sie Blogs über Triton Inference Server.
Blogs zu NVIDIA Triton Inference Server erkunden
E-Book ansehen
Entdecken Sie die moderne Landschaft der KI-Inferenz, Produktions-Anwendungsfälle von Unternehmen sowie Herausforderungen und Lösungen aus der Praxis.
Jetzt lesen
Bleiben Sie auf dem Laufenden über die neuesten KI-Inferenz-Nachrichten von NVIDIA.
Anmeldung