KI-Datasets und Datenschutz für KI-Entwickler

Last Updated on 22. Februar 2022

Warum jeder KI-Entwickler bei ki-datasets wegen des datenschutz ernsthaft besorgt sein sollte

von Michael Osterrieder (vAIsual) zum Thema KI-Datasets

Gehirn KI-Datasets künstliche intelligenz lizenzfrei foto illustration panthermedia

künstliche intelligenz ist hochtransformativ

Nur wenige Menschen würden dem widersprechen, dass künstliche Intelligenz und KI-Datasets an der Schwelle stehen, die meisten Branchen, so wie wir sie jetzt kennen, tiefgreifend zu verändern. Die Fotobranche ist eine der ersten, die von KI umfassend betroffen ist. Es gibt dabei mehrere KI-Tools, die Arbeitsabläufe beschleunigen, die Qualität verbessern und die Bildausgabe erweitern können.

KI Datasets lizenzfrei bild foto illustration open source panthermedia

Open source Code spielt eine schlüsselrolle

Viele dieser Tools wurden mit Hilfe von Open-Source-Code (MIT-lizenziert) entwickelt, der von OpenAI, einem von Elon Musk gegründeten Forschungs- und Entwicklungsunternehmen, veröffentlicht wurde. Im Januar 2021 veröffentlichte OpenAI ein neuronales Netzwerk namens DALL-E, das entwickelt wurde um Text in Bilder umzuwandeln. Es war ein Zweig dieses Codes, mit dem wir bei vAIsual mit der Entwicklung synthetischer Menschen für die Lizenzierung als Stock Medien begannen.

openai’s neueste version GLIDE mit einer bemerkenswerten änderung

Vor kurzem, Dezember 2021 um genau zu sein, veröffentlichte OpenAI den Nachfolger von DALL-E mit Namen GLIDE. GLIDE verwendet eine andere Architektur, nur einen Viertel der bisher erforderlichen Parameter und erhält positive Bewertungen für verbesserte Qualität. In seiner Videorezension von GLIDE, weist Edan Meyer darauf hin, dass „es GLIDE es nicht erlaubt, menschenähnliche Objekte zu erstellen, sie haben den Dataset etwas gefiltert“. Für mich stellt dies eine wirklich bemerkenswerte Veränderung dar.

KI-Datasets lizenzfrei foto illustration panthermedia

Datenschutz, urheberrechtliche and ethische erwägungen

Obwohl wir nur darüber spekulieren können, warum die Beschränkung für „Text zur Erzeugung menschlicher Bilder“ im Dataset beim Wechsel von DALL-E- zu den GLIDE-Instanzen eingeführt wurde, sind die wahrscheinlichsten Gründe Datenschutz, Urheberrecht und ethische Erwägungen. Insbesondere die Persönlichkeitsrechte (die in Europa durch Gesetze wie die DSGVO geregelt werden) stellen ein intrinsisches Risiko dar, wenn die zum Trainieren der KI verwendeten menschlichen Datensätze nicht rechtlich sauber sind.

lizenzfrei synth KI generiert synthetic human portrait KI-Datasets lizenzfrei panthermedia

Synthetic Humans Kollektion

die bedeutung der dsgvo für KI-datasets

Dies ist wirklich wichtig, denn obwohl die Models sich niemals direkt in den erzeugten Bildern sehen werden, bedeutet die harte Hand der DSGVO-Konformität, dass jede Person, deren Daten von einem Unternehmen verwendet wurden, das Recht hat, von ihm zu verlangen, dass ihre Daten von den Servern des Unternehmens entfernt werden. Wir müssen bloß bis zur jüngsten Kontroverse um Meta (vormals Facebook) schauen, das erwägt, sich aufgrund von DSGVO-Compliance-Problemen, teilweise aus Europa zu zurückzuziehen, um zu sehen, dass dies kein vernachlässigbares Problem ist.

lizenzfrei KI-Datasets illustration computer digital panthermedia

DIE risiken nicht-konformer KI-datasets

Für das Training eines KI-Codes bedeutet dies, dass es reicht wenn eine einzige Person eine Beschwerde einreicht um zu verursachen, dass der gesamte Datensatz neu bearbeitet und möglicherweise teuer erstellte KI-Modelle neu trainiert werden müssen. Dies könnte mehrere zehn Millionen Dollar kosten und viele der Startups, die um einen Platz auf dem Markt kämpfen, in den Bankrott treiben.

KI-Datasets gefahr piraterie liznezfrei netzwerk bild foto illustration panthermedia

Extensive Compliance-Aktivitäten in der stockfotografie-branche

Was viele KI-Entwickler möglicherweise nicht erkennen, ist, dass die IP-Stockfotografie-Branche einee der Industriezweige ist, die am umfassendsden auf Urheberrechtsverletzungen und Datenschutz überwacht wird. Hunderte Millionen Dollar werden jährlich von Unternehmen ausgegeben, um IP-Lizenzierungsprobleme mit Inhalten zu lösen, die sie für Marketing und Werbung verwenden. Damit die kommerzielle Nutzung von Bildern kopfschmerzenfrei ist (und daher für den Markt attraktiv ist), muss jede Person, die zum Trainieren einer KI verwendet wird, eine biometrische Freigabe die DSGVO-konform ist, unterzeichnet haben.

Big players wie TikTok haben schon reagiert

KI biometrische daten freigabe KI-datasets menschen Gesichtserkennung lizenzfrei foto bild

Diese Tatsache geht bei der C-Suite von TikTok, nicht verloren, die gerade ihre Datenschutzrichtlinie dahingehend geändert hat, um festzuhalten, dass möglicherweise biometrische Identifikatoren und biometrische Informationen aus den Inhalten ihrer in den USA ansässigen Benutzer gesammelt werden.

vAIsual hat eine klare haltung

Bei vAIsual haben wir dies als einen grundlegenden Aspekt angesehen, um da genau richtig zu liegen. Die KI, die wir trainieren, verwendet Hunderttausende von Bildern von Modellen, die wir in unseren eigenen Studios fotografiert haben. Jedes Modell hat eine biometrische Modellfreigabe unterzeichnet, die uns berechtigt, diese Fotos für das Training unserer KI zu verwenden.

Bedeutung der KI-datasets-security wird nachwievor unterschätzt

Während wir inzwischen alle möglichen Arten KI-generierter Bilder, die in Blogs, mit geprägten NFTs und anderweitig online geteilt werden, sehen, werden die erheblichen und gravierenden Auswirkungen von Urheberrecht, Datenschutz und Ethik auf Datensätze und KI-Bilderzeugung erst allmählich verstanden.

werte investment schutz KI Münzen lizenzfrei bild

vAIsual’s versprechen an seine kunden

Jetzt und in Zukunft ist vAIsual immer bestrebt, auf der richtigen Seite des Gesetzes zu stehen und rechtlich einwandfreie Datensätze für die professionelle Nutzung im Bildmarkt und als Datasets für KI Training bereitzustellen.