manage it | IT-Strategien und Lösungen

Eine leistungsstarke Dateninfrastruktur ist einer Zeit der kontinuierlich steigenden Datenmengen unverzichtbar. Open-Source-Lösungen, die in Cloud-Betriebsmodellen bereitgestellt werden, gewinnen hier zunehmend an Bedeutung. Abhängig von den konkreten Anforderungen hinsichtlich Datenspeicherung, Streaming, Analyse, Suche oder Orchestrierung bieten sich unterschiedliche Lösungen an. Für den boomenden Sektor der KI-Anwendungen sind es Vektordatenbanken.

Nach dem Hype rund um ChatGPT nimmt die KI- und ML-Nutzung auf breiter Front zu. Die Möglichkeiten, die generative KI und Large Language Models (LLMs) bieten, sind bei Weitem noch nicht ausgeschöpft. Die Entwicklungsziele sind, immer bessere KI-Modelle zur Verfügung zu stellen und vor allem im Hinblick auf generative Sprachmodelle vorhandene Modelle durch sogenanntes Fine-Tuning zu optimieren. Die Voraussetzung dafür ist eine hohe Datenverfügbarkeit, etwa im Hinblick auf die Quantität und Qualität der Trainingsdaten. Darüber hinaus erfordert die Optimierung von KI-Modellen auch einen schnellen Datenzugriff. Dies führt zur Frage, welche Datenbank am besten für die Aufgaben geeignet ist. Dabei kristallisieren sich zunehmend Open-Source-basierte Vektordatenbanken als die optimale Lösung heraus.

In Vektordatenbanken können unstrukturierte Daten wie Texte, Bilder und Grafiken oder Audio-Files und Videos als Vektoren gespeichert werden. Es handelt sich dabei um numerische Repräsentationen beziehungsweise Embeddings von Datenobjekten in einem mehrdimensionalen Raum. Die Embeddings sind eine mathematische Darstellung der Verwandtschaft oder Ähnlichkeit von Daten; zum Beispiel liegen die Wörter »Baum« und »Busch« näher beieinander als etwa »Baum« und »Auto«. Vektoren und Embeddings liefern damit die Basis für die Unterstützung umfassender Abfrage- und Suchfunktionen, etwa hinsichtlich der Analyse großer Datensätze, der Vektorähnlichkeitssuche oder der Anomalien- und Mustererkennung. Genau diese Leistungsmerkmale sind gerade im Kontext der Entwicklung von KI-Modellen und Large Language Models von erheblichem Vorteil.

Open-Source-Software und Managed Platforms als Fundament. Daten für die Nutzung in KI-Anwendungen stehen in immer größerer Quantität, Qualität und auch Komplexität zur Verfügung. Dafür gibt es mehrere Gründe wie die Digitalisierung, die Vernetzung von Geräten oder die Datengenerierung über Sensoren. Die Herausforderungen für die Datenverwaltung erhöhen sich dadurch parallel. Welche Dateninfrastruktur bietet Unternehmen hier eine maximale Flexibilität, Agilität, Unabhängigkeit und Skalierbarkeit – und vor allem auch eine Entlastung der eigenen Mitarbeiter in Entwicklung und Operations von Tätigkeiten rund um die Administration? Die Antwort lautet: die Nutzung von Open-Source-Software und Cloud-Betriebsmodellen.

Open-Source-Software und -Technologien gelten heute als die zentralen Innovationstreiber. Fast alle neuen Entwicklungen in Bereichen wie Cloud, Internet der Dinge, Edge Computing oder Big-Data-Analytics, aber vor allem auch bei KI- und ML-Anwendungen sind Open-Source-basiert. Diese Entwicklung betrifft ebenso die Datenbanken. Open-Source-Nutzer profitieren von einer großen und starken Community, die innovative Ideen in Form neuer Features oft sehr schnell umsetzt. Dieses Geschwindigkeitsplus gilt auch für Fehler in der Software und sicherheitsrelevante Patches, die die Community in der Regel unmittelbar behebt beziehungsweise bereitstellt.

Nicht nur Open Source liegt im Trend, gleiches gilt für die Nutzung von Cloud-Services, auch im Umfeld von Datenbanken. Von Vorteil sind dabei etwa Managed-Platform-Angebote, die unterschiedliche Betriebsmodelle unterstützen. Eine Managed Platform fungiert quasi als Abstraktionsschicht, die die Verwendung benötigter Cloud-Dienste ermöglicht, und zwar ohne Abhängigkeit von der jeweiligen Umgebung. Das heißt, ein Unternehmen kann die gewünschte Open-Source-Lösung und Datenbanktechnologie in einem beliebigen Deployment-Szenario nutzen, in einer Public-, Multi-, Hybrid- oder Private-Cloud. Idealerweise umfasst ein Managed-Platform-Angebot dabei ein komplettes Ökosystem für Dateninfrastrukturen mit einer Vielzahl von Open-Source-Technologien wie Apache Cassandra, Apache Kafka, PostgreSQL oder Redis. Mit diesen Lösungen können Unternehmen unterschiedlichste Anwendungsfälle optimal abdecken: von der Verwaltung großer Datenvolumina mit einem hochskalierbaren NoSQL-Datenspeicher über die Unterstützung ereignisgesteuerter Architekturen mittels einer hochverfügbaren Streaming- und Messaging-Plattform bis hin zu einer relationalen Open-Source-Datenbank.

PostgreSQL mit pgvector-Extension als Vektordatenbank. Für die Nutzung im Kontext von KI- und ML-Anwendungen bietet sich unter anderem PostgreSQL für die strukturierte Datenablage an. Ein technologischer Vorteil von PostgreSQL ist die Erweiterbarkeit, es existieren inzwischen rund 1.000 Extensions, die die Standardfunktionen ergänzen. Eine Erweiterung ist dabei auch pgvector, womit sich Postgres als Vektordatenbank einsetzen lässt. pgvector unterstützt die Suche nach Embeddings und Vektoren, die in enger Beziehung zueinanderstehen. Die Vektorähnlichkeit wird dabei etwa mittels einer Messung des euklidischen Abstands oder des Kosinus-Abstands ermittelt. pgvector ist zudem nahtlos mit anderen PostgreSQL-Funktionen wie Indizierung nutzbar.

Wie generell in der IT wird auch hinsichtlich Datenbanktechnologien und -verwaltung die Entwicklung in Richtung Open-Source-Lösungen und Cloud-Services gehen. Wenn ein Unternehmen dabei einen Cloud-agnostischen Ansatz wählt, gerät es nicht in eine Provider-Abhängigkeit. Zu erreichen ist das mit Managed-Platform-Modellen, die auf Open-Source-Software setzen und den interoperablen Einsatz unterschiedlicher Technologien unterstützen, so auch Vektordatenbanken wie PostgreSQL mit pgvector-Extension für die optimale Ausschöpfung des KI-Potenzials.

Merlin Walter, Staff Sales Engineer EMEA bei Instaclustr

Illustration: © Zishan Liu | Dreamstime.com

Merlin Walter,
Staff Sales Engineer EMEA
bei Instaclustr