Berichten zufolge blockiert Reddit das Daten-Scraping von Google und anderen Such-Crawlern

Kürzlich sind Berichte aufgetaucht, in denen behauptet wird, dass Reddit, der Nachrichtenaggregator und die Community-Website, Berichten zufolge plant, KI-Startups daran zu hindern, Daten von seiner Website zu entfernen. Sollte das Unternehmen dies durchziehen, könnten davon auch News-Crawler wie Google und Bing betroffen sein.

Die Berichte stammen von a Washington Post In einem Bericht wird behauptet, dass Reddit möglicherweise die Möglichkeit, sich mit Google-Anmeldeinformationen auf der Website anzumelden, entfernt und die Webcrawler des Technologieriesen daran hindert, die Website zu scannen. Der Nachrichtenbeitrag verwies auf die jüngsten Schwierigkeiten von Reddit, mit KI-Unternehmen wie Google eine Vereinbarung über die Bezahlung der Daten zu treffen, die sie von der Website erhalten.

Dies wurde später von Reddit, wenn auch nicht in vollem Umfang, dementiert, indem lediglich der Google-Login-Teil des Berichts ausdrücklich angeprangert wurde. Damit blieb der zweite Teil, das Blockieren von Webcrawlern, der Interpretation überlassen.

Was passiert mit Data Scraping?

In jüngster Zeit sind KI-Startups und die Art und Weise, wie ihre Chatbots trainiert werden, Gegenstand von Kontroversen bei Nachrichten-Websites wie Reddit, X usw. geworden. Dies hat dazu geführt, dass mehrere Nachrichtenorganisationen diese Versuche über API-Sperren und -Limits blockieren mussten. Elon Musk, CEO von

Reddit hatte vor ein paar Monaten ein ähnliches Problem und zwang das Unternehmen, dem Beispiel von Allerdings scheint das Problem nun bei den Suchcrawlern zu liegen, die die Website weiterhin kostenlos durchsuchen.

KI-Startups verlassen sich traditionell auf öffentlich verfügbare Webdaten, um ihre Chatbots und andere KI-Modelle zu trainieren. Dadurch können sie den kostspieligen und zeitaufwändigen Prozess der Erstellung eigener Datensätze vermeiden. Allerdings haben Nachrichtenorganisationen und andere Content-Ersteller zunehmend ihre Frustration über diese Praxis zum Ausdruck gebracht und argumentiert, dass KI-Startups von ihrer Arbeit profitieren, ohne dafür zu bezahlen.

Das Blockieren des Zugriffs von Suchmaschinen-Crawlern auf die Website würde jedoch bedeuten, dass Reddit-Inhalte nicht mehr in den Suchergebnissen von Google und Bing erscheinen würden. Dies wäre ein erheblicher Rückschlag für Reddit, da Suchmaschinen eine wichtige Traffic-Quelle für die Website darstellen.

Dies scheint Reddit jedoch nicht zu beunruhigen, da eine anonyme Quelle, bei der es sich angeblich um einen Reddit-Vertreter handelt, mit den Worten zitiert wurde: „Reddit kann ohne Suche überleben.“ Da die KI immer leistungsfähiger und verbreiteter wird, wird die Nachfrage nach Daten zum Trainieren von KI-Modellen nur noch zunehmen. Daher hoffen wir, dass Suchgiganten und Nachrichtenseiten bald eine Einigung erzielen und eine Lösung finden können.

source site-33