Direkt zum Inhalt

Deepvoice: Wie man sich gegen das Klonen der eigenen Stimme durch KI wehrt

Eine neue Technik gegen Deepfake verhindert das Klonen von Stimmen und schützt damit vor irreführender Nutzung: »AntiFake« erschwert es KI-Tools, Sprachaufnahmen zu lesen.
Frau spricht ins Handy, ihre Tonspur wird virtuell angezeigt
Bereits drei Sekunden Sprachaufnahme genügen, um die Stimme eines Menschen zu klonen. Cyberkriminelle nutzen KI-Tools zur Sprachsynthese für ihre finsteren Zwecke – allerdings lassen sich die Waffen der Fälscher auch zum Schutz vor Deepfake und nicht autorisiertem Voice-Cloning einsetzen.

Synthetische Stimmen sind nicht nur für Prominente und Politiker ein heikles Thema. Jüngste Fortschritte der generativen künstlichen Intelligenz (KI) ermöglichen authentisch klingende Sprachsynthese bis zu dem Punkt, an dem Menschen auf Distanz nicht mehr unterscheiden können, ob sie mit der ihnen vertrauten Person oder einem Deepfake sprechen. Wird die eigene Stimme ohne Einwilligung von Dritten »geklont«, können böswillige Akteure damit beliebige Botschaften in die Welt setzen. Das ist die Kehrseite dieser Technologie, die durch personalisierte Assistenz oder bewusst geschaffene Avatare durchaus nützliches Potenzial hat und nicht nur eine Konkurrenz für professionelle Sprecherinnen und Schauspieler oder Material für Betrügerbanden liefert.

Das Missbrauchspotenzial liegt beim Klonen echter Stimmen mit Deepvoice-Software jedoch klar auf der Hand: Synthetische Stimmen lassen sich leicht missbrauchen, um andere irrezuführen. Und bereits wenige Sekunden Sprachaufnahme genügen, um die Stimme eines Menschen überzeugend zu klonen. Wer auch nur gelegentlich Sprachnachrichten versendet oder auf Anrufbeantworter spricht, hat der Welt bereits mehr als genug Material von sich zur Verfügung gestellt, um geklont zu werden.

Der Informatiker und Ingenieur Ning Zhang hat eine neue Methode entwickelt, die nicht autorisierte Sprachsynthese vereiteln soll, bevor sie stattgefunden hat. Dafür hat Zhang, der an der McKelvey School of Engineering der Washington University in St. Louis Informatik und Ingenieurwesen unterrichtet, ein Tool namens »AntiFake« erstellt. Zhang präsentierte es Ende November 2023 bei einer einschlägigen Fachkonferenz in Kopenhagen, Dänemark. Wer es genauer wissen mag, kann den Vortrag, den Zhang dort hielt, bereits in den Conference Proceedings nachlesen.

KI-Klone der eigenen Stimme verhindern

Herkömmliche Methoden, mit denen man Deepfake erkennen kann, greifen erst dann, wenn der Schaden schon entstanden ist. AntiFake hingegen setzt bei der Prävention an, um die Synthese von Sprachdaten zu einem Deepvoice-Fake zu verhindern. Das Tool soll die digitalen Fälscher mit den eigenen Waffen schlagen: So setze es ähnliche Techniken wie die Cyberkriminellen beim Voice-Cloning ein, um Stimmen vor Raubkopien und Fälschungen zu schützen. Der Quelltext des AntiFake-Projekts steht allen zur freien Verfügung.

Die Software gegen Stimmfälschung soll es Cyberkriminellen erschweren, die Sprachdaten auszuwerten und die für eine Stimmsynthese wichtigen Merkmale auszulesen. »Das Tool nutzt eine Technik der gegnerischen KI, die ursprünglich Teil des Werkzeugkastens der Cyberkriminellen war, aber jetzt nutzen wir sie, um uns gegen sie zu verteidigen«, erklärt Zhang und erläutert, was technisch vor sich geht: »Wir bringen das aufgezeichnete Audiosignal ein wenig durcheinander, verzerren oder stören es gerade so weit, dass es sich für menschliche Zuhörer noch richtig anhört« – zugleich werde es zum Trainieren eines Voiceklons unbrauchbar gemacht. Ähnliche Ansätze gibt es auch bereits zum Kopierschutz von Werken im Internet – etwa von Bildern, die für das menschliche Auge noch natürlich aussehen, deren Informationen hingegen von Maschinen nicht mehr auslesbar sein sollen durch für Menschen unsichtbare Störinformationen in der Bilddatei.

So soll etwa die Software Glaze Bilder für das Machine Learning großer KI-Modelle unbrauchbar machen, und gewisse Tricks schützen vor Gesichtserkennung auf Fotos. »AntiFake stellt sicher, dass es für Kriminelle schwierig ist, unsere Stimmen zu synthetisieren und uns zu imitieren, wenn wir unsere Stimmdaten veröffentlichen«, sagt Zhang über den Einsatzzweck des von ihm entwickelten Tools.

Die Angriffsmethoden werden laufend besser, und die Angreifer professionalisieren sich, wie etwa beim derzeitigen Anstieg automatisierter Cyberangriffe auf Unternehmen, Infrastruktur und öffentliche Verwaltung weltweit zu beobachten ist. Um sicherzustellen, dass AntiFake in der dynamischen Bedrohungslage mithalten und starken Synthesemodellen möglichst lange Paroli bieten kann, haben Zhang und sein Doktorand Zhiyuan Yu ihr Tool so entwickelt, dass es möglichst breit und allgemein trainiert ist.

Zhangs Labor testete das Tool gegen fünf moderne Sprachsynthesizer. Dabei soll es eine Schutzrate von 95 Prozent erreicht haben, und dies sogar gegenüber unbekannten kommerziellen Synthesizern, für die AntiFake nicht speziell ausgelegt war. Zhang und Yu testeten ihr Tool mit 24 menschlichen Versuchsteilnehmerinnen und -teilnehmern aus unterschiedlichen Bevölkerungsgruppen. Für eine repräsentative Vergleichsstudie wären weitere Tests nötig und eine größere Versuchsgruppe.

»Früher oder später werden wir in der Lage sein, Sprachaufnahmen vollständig zu schützen«Ning Zhang, Informatiker und Ingenieur

Demzufolge könne AntiFake kürzere Sprachaufnahmen bereits gegen Imitation schützen, und dies sei statistisch gesehen das häufigste Format für cyberkriminelle Fälschung. Aus Sicht der Ersteller des Tools spricht jedoch nichts dagegen, es für längere Tondokumente oder auch Musik zu erweitern, um auch größere Dokumente vor Missbrauch abzusichern. Das müssten interessierte Nutzerinnen und Nutzer derzeit noch in Eigenregie erledigen, wofür Programmierkenntnisse erforderlich sind. Der Quellcode selbst ist im Internet verfügbar.

»Früher oder später werden wir in der Lage sein, Sprachaufnahmen vollständig zu schützen«, gibt sich Zhang gegenüber der American Association for the Advancement of Science zuversichtlich – denn KI-Systeme blieben anfällig für Störungen. Was im sicherheitskritischen Einsatz von KI als großes Manko gilt, lässt sich ausnutzen im Kampf gegen Deepfake. Allerdings müssen dafür auch die Methoden und Werkzeuge laufend an die Möglichkeiten der Cyberkriminellen angepasst werden, lernen und mitwachsen.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.