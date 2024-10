Manchmal könnte man den Eindruck gewinnen, als wären wir ganz plötzlich im Zeitalter der künstlichen Intelligenz (KI) gelandet. Mit dem rasanten Aufstieg kommerzieller Large Language Models (LLMs) und generativer KI-Tools wie OpenAI ChatGPT, Microsoft Copilot und Google Gemini ist künstliche Intelligenz jetzt in aller Munde – Bedenken eingeschlossen.

Aber KI-Konzepte und -Systeme existieren schon seit Jahrzehnten. Der Begriff selbst wurde erstmals im Jahr 1956 von John McCarthy geprägt, und er bezeichnet KI als »die Wissenschaft und Technik der Entwicklung intelligenter Maschinen«. Für Softwareentwickler ist KI weder neu noch besonders beängstigend. Vielmehr ist KI etwas, das sie seit Jahren im Gebrauch verfeinern und in ihre Software integrieren.

Maschinelles Lernen (ML) ist beispielsweise eine Kategorie innerhalb der künstlichen Intelligenz, die seit langem in so gut wie allen Bereichen eingesetzt wird, von Fitness-Tracking-Apps bis hin zu Antiviren-Software. ML versetzt Computer in die Lage, Aufgaben ohne explizite Programmierung auszuführen. Dazu dienen Algorithmen und Modelle, die es Programmen ermöglichen, sich anzupassen und über die Zeit zu lernen. ML ist sehr gut darin, komplexe Muster in Daten zu erkennen und darauf zu reagieren. Deshalb eignet sich maschinelles Lernen für Aufgaben wie die Spam- und Malware-Erkennung, vorausschauende Analysen und computergestütztes Design. ML ist mittlerweile so weit verbreitet, dass wir maschinelles Lernen oft gar nicht mehr als KI bezeichnen.

Mit der Einführung der ersten kommerziellen LLMs und generativen KI-Tools hat künstliche Intelligenz in den letzten Jahren einen großen Sprung nach vorn gemacht. Beide stützen sich auf maschinelles Lernen und eine Reihe anderer KI-Technologien. Dazu zählen Deep Learning, neuronale Netze und die Verarbeitung natürlicher Sprache. Gleichzeitig nutzen sie riesige Mengen von Internetdaten, um etwas zu tun, was ML-fähige Systeme nie getan haben – nämlich zu »denken«, oder zumindest den Anschein dessen zu erwecken. Jetzt können Sie einen Computer einfach »fragen« oder ihn mit einer offenen Problemstellung konfrontieren. Das System wird eine »neue« Antwort liefern. Diese Antwort kann so gut wie alles sein, von einem einfachen Textblock über Computercode bis hin zu einem Kunstwerk.

Parallel zum Hype um generative KI wurden Bedenken zu den Risiken und Grenzen laut: sogenannte Halluzinationen, Plagiate, Urheberrechtsverletzungen und sogar Fehler, die den von Menschen sehr ähnlich sind. Unternehmen, die das enorme Potenzial der KI erkannt hatten, suchten deshalb nach Möglichkeiten, die Vorteile zu nutzen und gleichzeitig die Risiken zu minimieren.

Gen AI wird die Softwareentwicklung verändern

Generative KI wird die Softwareentwicklung verändern. Das ist keine Frage des Ob, sondern des Wann. Viele Entwickler nutzen bereits jetzt künstliche Intelligenz bei der Codeentwicklung. KI hat das Potenzial, die Produktivität von Entwicklern drastisch zu verbessern. Das versetzt sie in die Lage, Code schneller als je zuvor zu erstellen und zu verfeinern. Untersuchungen haben ergeben, dass generative KI den Zeitaufwand für das Schreiben von Code um 35-45 % reduzieren kann.

Die Art und Weise, wie generative KI die Daten und Werke nutzt, auf denen sie trainiert wurde, um »neue« Werke zu entwickeln, hat jedoch Bedenken aufgeworfen. Die Bedenken bei der Entwicklung von Software ähneln denen bei geistigen Eigentum, etwa bei Texten oder visuellen Kunstwerken. Da überrascht es nicht, dass wir inzwischen in eine Phase von andauernden Rechtsstreitigkeiten eingetreten sind. Klagen treffen sowohl die Organisationen, die diese LLMs entwickeln, als auch diejenigen, die öffentlich von einer KI geschaffene Werke wie etwas Songs und Bilder beanspruchen und verbreiten. Ein solcher Fall ist beispielsweise die Sammelklage von Entwicklern gegen Microsoft, GitHub und OpenAI. Allen dreien wird darin vorgeworfen, gegen das Urheberrecht zu verstoßen, weil sie Copilot gestatten, lizenzierte Codeschnipsel wiederzuverwenden, ohne dies ordnungsgemäß kenntlich zu machen. Obwohl dieser spezielle Fall abgewiesen wurde, ist das juristische Gerangel in vollem Gange und die Frage nach dem geistigen Eigentum noch längst nicht geklärt.

KI-gestützte Programmierung für bessere Software?

Der Einsatz von KI in der Softwareentwicklung wird bald gang und gäbe sein. Daran besteht kein Zweifel. Aber wie jeder weiß, der selbst schon Tools wie ChatGPT verwendet hat, sind die von der KI erzeugten Antworten oft unsinnig, verzerrt oder schlichtweg falsch. Das Gleiche gilt für KI-generierten Code. LLMs werden anhand von ungeheuren Mengen öffentlich zugänglichen Codes trainiert. Vieles davon ist gut, vieles aber auch nicht. Wenn Entwickler dem blind vertrauen, was eine generative KI ausgibt, sind die Ergebnisse potenziell katastrophal. KI kann und wird oft genug fehlerhaften und unsicheren Code erzeugen.

Ist KI-generierter Code also besser oder schlechter als der von menschlichen Entwicklern geschriebene? Eine erste Analyse von GitHub Copilot hat ergeben, dass sich bestimmte Arten von Sicherheitslücken besser als andere in diesem Prozess ausschließen lassen. Im Allgemeinen lassen sich vor allem häufig vorkommende Syntaxschwachstellen gut vermeiden. Problematischer wird es bei Lücken, die aus komplexen Interaktionen zwischen Anwendungen und externen Systemen sowie Benutzern resultieren. Und das Fazit? Je nachdem, welche Art von Code ein Entwicklungsteam erstellt, werden Sie damit auch unterschiedliche Erfahrungen machen.

Ein nicht ganz so neuartiger Ansatz für ein neues Problem

KI-erzeugte Software ist also offensichtlich nur so gut wie der von Menschen entwickelte Code, auf dem sie trainiert wurde. Wenn das der Fall ist, liegt es auf der Hand, dass wir beim Überprüfen und Testen des von der KI erzeugten Codes denselben Ansatz und dieselben Vorsichtsmaßnahmen ergreifen sollten wie bei Code, der von menschlichen Entwicklern erstellt wurde. Dazu gehört etwa die statische Analyse, mit der man sowohl die Codequalität prüfen als auch Sicherheitsmängel erkennen kann.

Zum Trainieren von LLMs verwendet man zum überwiegenden Teil Open Source Code. Also Software, die unter den Bedingungen einer Open-Source-Lizenz frei verfügbar ist. Es ist kaum verwunderlich, dass KI-generierter Code häufig »Schnipsel« von Open-Source-Komponenten enthält. Wenn diese Code Snippets nicht identifiziert werden, birgt das verschiedene Risiken. Das betrifft auch die zugehörigen Lizenzen. Werden die Lizenzbedingungen nicht eingehalten, drohen Rechtsstreitigkeiten hinsichtlich des geistigen Eigentums.

An dieser Stelle kann die Software Composition Analysis (SCA) helfen. Viele Softwareteams nutzen bereits entsprechende Tools, um Open-Source-Komponenten und Lizenzverpflichtungen in ihren Anwendungen nachzuverfolgen. Um diese Snippets zu erkennen, braucht man allerdings ein Tool, dass sehr granulare Analysen durchführen kann. Dazu sind längst nicht alle SCA-Tools in der Lage. Entwickler sollte sich kundig machen und nur auf solche Tools zurückgreifen, die den Anforderungen auch tatsächlich gewachsen sind.

KI-Governance ist unerlässlich

Generative KI wird die Softwareentwicklung in den kommen zwei Jahrzehnten ebenso revolutionieren, wie das Open Source in den beiden vorgegangenen getan hat. Aber ähnlich wie beim Thema Open Source sollte man eine angemessene Governance gewährleisten. Erst die stellt sicher, dass Entwicklerteams das volle Potenzial ausschöpfen können. Wer einen tauglichen Governance-Rahmen schaffen will, der sollte alle beteiligten Parteien an einen Tisch holen: Entwickler, Sicherheitsteams, die Rechtsabteilung und diejenigen, die sich mit dem Risikomanagement insgesamt befassen.

Als erstes brauchen Unternehmen unbedingt eigene Regeln für den Einsatz von KI am Arbeitsplatz. In diesen Richtlinien sollte der Schutz geistigen Eigentums oberste Priorität haben. Das gilt sowohl für das geistige Eigentum des Unternehmens selbst als auch für das der Open-Source-Projekte, die dem KI-generierten Code zugrunde liegen.

Von minderwertigem oder anfälligem Code gehen erhebliche Risiken aus. Firmen sollten ihre KI-Codier-Assistenten sorgfältig auswählen (und prüfen). Und zwar mit der gleichen Disziplin, die sie bei jedem anderen Anbieter anwenden würden. Bei kostenlosen Tools sollten Entwickler vorsichtig sein (wohin gehen Ihre Daten?) und die Datenschutz- und IP-Richtlinien aller Plattformen, die sie in Betracht ziehen, kennen. Eine angemessene Due-Diligence-Prüfung senkt das Risiko erheblich.

Schließlich sollten Sie dem von einer KI generierten Code nicht uneingeschränkt vertrauen. Überprüfen Sie ihn sorgfältig. Nutzen Sie das Potenzial der statischen Analyse, um Fehler im Code und Schwachstellen aufzuspüren, und SCA-Tools auf der Snippet-Ebene. Nicht zuletzt, um potenzielle IP-Verletzungen zu erkennen.

Auf dem Weg in eine produktive, innovative und sichere Zukunft

Eines ist sicher: KI-gestützte Softwareentwicklung ist das »new normal«. Bei einem durchdachten KI-Ansatz sollten dieselben Praktiken wie bei von Menschen entwickelter Software zum Einsatz kommen. Dann können Firmen das enorme Potenzial von KI für sich nutzbar machen. Gleichzeitig kontrollieren sie die ihr innewohnenden Risiken, um schneller, sichere und qualitativ hochwertige Software zu entwickeln.

Boris Cipot, Senior Sales Engineer, Black Duck

