Big Tech muss kreativ werden, da ihm die Daten zum Trainieren seiner KI-Modelle ausgehen. Hier sind einige seiner wildesten Lösungen.

Big Tech durchsucht das Internet nach neuen Datenquellen, um seine KI-Modelle zu trainieren.

  • OpenAI, Meta, Google und andere Big-Tech-Unternehmen trainieren ihre KI-Modelle mithilfe von Online-Daten.
  • Aber KI-Modelle lernen so schnell, dass alle Daten bis 2026 aufgebraucht sein könnten.
  • Wie werden KI-Systeme also weiter lernen? Big Tech hat einige interessante Ideen.

Mehr ist mehr, wenn es um KI geht. Je mehr Daten-KI-Systeme trainiert werden, desto leistungsfähiger werden sie.

Doch während sich das KI-Wettrüsten verschärft, stehen Technologiegiganten wie Meta, Google und OpenAI vor einem Problem: Ihnen gehen die Daten zum Trainieren ihrer Modelle aus.

Viele führende KI-Systeme wurden auf das riesige Angebot an Online-Daten trainiert. Aber bis 2026 könnten alle hochwertigen Daten erschöpft sein, nach Epocheein KI-Forschungsinstitut.

Deshalb suchen große Technologieunternehmen nach neuen Datenquellen, um ihre Systeme lernfähig zu halten. Hier ist ein Blick auf einige der kreativsten Optionen, die Technologieunternehmen in Betracht ziehen.

Google erwog, Verbraucherdaten zu nutzen, die in Google Docs, Sheets und Slides verfügbar sind.
Google Dokumente
Google erwog, Daten aus Google Docs, Sheets und Slides zum Training seiner KI-Systeme zu verwenden.

Die Times berichtete, dass die Rechtsabteilung von Google im vergangenen Sommer damit begonnen habe, die Mitarbeiter dazu aufzufordern, die Sprache rund um die Verwendung von Verbraucherdaten zu erweitern. Einige Mitarbeiter wurden darüber informiert, dass das Unternehmen Daten aus den kostenlosen Verbraucherversionen von Google Docs, Google Sheets, Google Slides und sogar den Restaurantbewertungen auf Google Maps verwenden wollte.

Während Google seine Datenschutzrichtlinie im Juli 2023 aktualisierte, gab das Unternehmen an, dass es die Arten von Daten, die es zum Trainieren von KI-Modellen verwendet, nicht erweitert habe.

Geld ausgeben für den Verlag Simon & Schuster.
Simon & Schuster
Der New Yorker Hauptsitz von Simon & Schuster im Jahr 2016.

Bei Meta beunruhigte das schwindende Angebot an verwertbaren Daten die Führungskräfte so sehr, dass sie sich im März und April letzten Jahres fast täglich trafen, um über Alternativen nachzudenken, berichtete die Times.

Eine bei diesen Treffen in Umlauf gebrachte Idee war, Simon & Schuster zu kaufen. Der berühmte Verlag hat mit Autoren wie Stephen King und Jennifer Weiner zusammengearbeitet und wurde letztes Jahr von der Private-Equity-Gesellschaft KKR für 1,62 Milliarden US-Dollar gekauft.

Andere Teilnehmer schlugen die budgetfreundlichere Option vor, 10 US-Dollar pro Buch zu zahlen, um die vollständigen Lizenzrechte für neue Titel zu erhalten.

Generieren synthetischer Daten
Archivbild von Getty
OpenAI erforscht synthetische Daten, um seine Systeme zu trainieren.

Synthetische Daten sind Daten, die von KI-Systemen generiert werden, und OpenAI hat sie als Option für seine Modelle in Betracht gezogen.

„Solange man den Ereignishorizont synthetischer Daten überwinden kann, bei dem das Modell intelligent genug ist, um gute synthetische Daten zu erzeugen, wird alles gut“, sagte OpenAI-CEO Sam Altman laut Times im vergangenen Mai auf einer Technologiekonferenz.

Das Problem beim Training von KI-Systemen anhand synthetischer Daten besteht darin, dass es einige der Fehler und Einschränkungen der KI verstärken kann, berichtete die Times. OpenAI arbeitet an einem Prozess, um dieses Problem anzugehen, bei dem ein KI-System Daten produziert und ein anderes KI-System diese beurteilt.

Whisper, ein Spracherkennungstool, das YouTube-Videos übersetzt
Musik mit YouTube-Logo
YouTube möchte KI-generierte Musik erstellen.

OpenAI hat außerdem Whisper entwickelt, ein Spracherkennungstool, das YouTube-Videos und Podcasts übersetzen kann. Sein neuestes großes Sprachmodell, GPT-4, wurde anhand von über einer Million Stunden YouTube-Videos trainiert, die von Whisper transkribiert wurden.

Der Präsident von OpenAI, Greg Brockman, war einer der Hauptentwickler von Whisper und sagte der Times, dass OpenAI für seine Systeme auf „zahlreiche Datenquellen“ angewiesen sei.

Photobucket: Eine Fundgrube an Fotos von Myspace und Friendster
myspace 2009
Photobucket, das Fotos auf Myspace gehostet hat, lizenziert seine Daten möglicherweise an Technologieunternehmen.

Photobucket war einst „die weltweit führende Website zum Hosten von Bildern“ und machte fast die Hälfte des US-amerikanischen Online-Fotomarkts aus. laut Reuters. Das lag zum Teil daran, dass dort Fotos für frühe Social-Media-Seiten wie Myspace und Friendster gehostet wurden.

Laut Reuters könnte die Bilddatenbank des Unternehmens nun bald an Technologieunternehmen lizenziert werden, um deren KI-Systeme zu trainieren. Photobucket lehnte es gegenüber Reuters ab, potenzielle Käufer zu identifizieren.

Lesen Sie den Originalartikel auf Business Insider

source site-19