Mai 8, 2024

Migrelo – Polacy w Niemczech

Finden Sie alle nationalen und internationalen Informationen zu Deutschland. Wählen Sie im City Stuff Magazin die Themen aus, über die Sie mehr erfahren möchten

Websites versuchen, den ChatGPT-Webcrawler zu blockieren, nachdem Anweisungen angezeigt wurden – Ars Technica

Websites versuchen, den ChatGPT-Webcrawler zu blockieren, nachdem Anweisungen angezeigt wurden – Ars Technica

Ohne Werbung hat OpenAI kürzlich Details zu seinem Webcrawler hinzugefügt. GPTBot, zur Online-Dokumentationsseite. GPTBot ist der Name des Benutzeragenten, mit dem das Unternehmen Webseiten abruft, um die künstlichen Intelligenzmodelle hinter ChatGPT, wie beispielsweise GPT-4, zu trainieren. Anfang dieser Woche einige Websites Sie gaben schnell ihre Absicht bekannt Um zu verhindern, dass GPTBot auf seine Inhalte zugreift.

In der neuen Dokumentation sagt OpenAI, dass mit GPTBot gecrawlte Webseiten „wahrscheinlich zur Verbesserung zukünftiger Modelle verwendet werden“ und dass der Zugriff von GPTBot auf Ihre Website „KI-Modellen dabei helfen kann, genauer zu werden und ihre Gesamtfähigkeiten und Sicherheit zu verbessern“.

OpenAI gibt an, Filter implementiert zu haben, die sicherstellen, dass GPTBot nicht auf Quellen zugreift, die sich hinter Paywalls befinden, personenbezogene Daten sammeln oder Inhalte enthalten, die gegen die Richtlinien von OpenAI verstoßen.

Die Nachricht von der Möglichkeit, OpenAI-Trainings zu blockieren (sofern man sie respektiert), kommt zu spät, um bestehende Trainingsdaten für ChatGPT oder GPT-4 zu beeinflussen, die vor Jahren ohne Ankündigung verworfen wurden. OpenAI sammelte Daten bis September 2021, dem aktuellen „kognitiven“ Grenzwert für OpenAI-Sprachmodelle.

Bemerkenswert ist, dass die neuen Anweisungen Vielleicht nicht Verhindern Sie, dass Webbrowser-Versionen von ChatGPT oder ChatGPT-Plug-ins auf vorhandene Websites zugreifen, um aktualisierte Informationen an den Benutzer weiterzuleiten. Dieser Punkt wird in der Dokumentation nicht erläutert und wir haben OpenAI zur Klärung kontaktiert.

Die Antwort liegt in der robots.txt-Datei

Laut OpenAI DokumentationGPTBot wird vom Benutzeragenten-Token „GPTBot“ erkannt, dessen vollständige Zeichenfolge „Mozilla/5.0 AppleWebKit/537.36 (KHTML, dasselbe wie Gecko; kompatibel; GPTBot/1.0; + https://openai.com/gptbot)“ lautet. „.

Die OpenAI-Dokumente bieten außerdem Anleitungen dazu, wie Sie verhindern können, dass GPTBot Websites mithilfe von Industriestandards crawlt robots.txt-Datei Dabei handelt es sich um eine Textdatei im Stammverzeichnis einer Website, die Webcrawler (z. B. solche, die von Suchmaschinen verwendet werden) anweist, die Website nicht zu indizieren.

Siehe auch  Samsung bietet ein kostenloses Galaxy Z Flip 4-Upgrade und einen sofortigen Rabatt von 100 $

Es ist so einfach wie das Hinzufügen dieser beiden Zeilen zur robots.txt-Datei Ihrer Website:

User-agent: GPTBot
Disallow: /

OpenAI gibt außerdem an, dass Administratoren GPTBot in einer robots.txt-Datei mit unterschiedlichen Codes auf bestimmte Teile der Website beschränken können:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Darüber hinaus führte OpenAI das ein Spezifische IP-Adressblöcke von dem aus GPTBot ausgeführt wird und der auch von Firewalls blockiert werden kann.

Trotz dieser Option stellt das Blockieren von GPTBot nicht sicher, dass die Standortdaten nicht letztendlich alle zukünftigen KI-Modelle trainieren. Abgesehen von Problemen mit Scrapern, die robots.txt-Dateien ignorieren, gibt es noch andere große Datensätze von gescrapten Websites (z. B Haufen) ist nicht mit OpenAI verbunden. Diese Datensätze werden häufig zum Trainieren von Open-Source-LLMs (oder Open-Source-LLMs) wie Metas Llama 2 verwendet.

Manche Websites reagieren schnell

Während ChatGPT aus technischer Sicht ein großer Erfolg war, war es auch umstritten, weil es ohne Erlaubnis urheberrechtlich geschützte Daten scrapfte und diesen Wert in einem kommerziellen Produkt konzentrierte, das das Online-Veröffentlichungsmodell umgeht. OpenAI wurde in diesem Sinne Plagiat vorgeworfen (und verklagt).

Dementsprechend ist es nicht verwunderlich, dass einige Leute auf die Nachricht von der Möglichkeit, ihre Inhalte in zukünftigen GPT-Formularen zu blockieren, mit einer Art Aufstau reagieren ich höre. Zum Beispiel am Dienstag, VentureBeat männlich Das die KanteSubstack-Autor Casey NewtonUnd Neil Clark Von Clarkesworld aus sagten sie alle, sie würden GPTBot blockieren, kurz nachdem die Nachricht über den Bot bekannt wurde.

Doch für Betreiber großer Websites ist die Möglichkeit, LLM-Crawler zu blockieren, nicht so einfach, wie es scheint. Wenn einige LLMs die Daten bestimmter Websites ignorieren, entstehen Wissenslücken, die einigen Websites sehr nützlich sein können (z. B. Websites, die keine Besucher verlieren möchten, wenn ChatGPT ihnen ihre Informationen zur Verfügung stellt), aber auch anderen schaden könnten. Beispielsweise könnte das Blockieren von Inhalten künftiger KI-Modelle den kulturellen Fußabdruck einer Website oder Marke verringern, wenn intelligente Chatbots in Zukunft zu einer primären Benutzeroberfläche werden. Stellen Sie sich als Gedankenexperiment vor, dass ein Online-Unternehmen im Jahr 2002 verkündet, dass seine Website nicht von Google indexiert werden soll – ein selbstzerstörerischer Schachzug, da dies die beliebteste Methode zur Online-Suche nach Informationen war.

Siehe auch  Mario Party Superstars jetzt aktualisiert (Version 1.1.1), Patchnotes

Es ist noch sehr früh im Spiel der generativen KI, und egal, in welche Richtung sich die Technologie entwickelt – oder einzelne Websites versuchen, sich vom KI-Modelltraining abzumelden – OpenAI bietet zumindest die Option.