this post was submitted on 08 Aug 2023
8 points (100.0% liked)

Haupteingang

3692 readers
2 users here now

Die Standard-Community von feddit.de

In dieser Community geht es ausschließlich um alles rund um die Instanz!

Hast du Fragen? !fragfeddit@feddit.de

matrix chat: !feddit:tilde.fun

founded 3 years ago
MODERATORS
 

Moin. Was ich schrob: OpenAIs crawler berücksichtigt jetzt offenbar eine robots.txt. Gefühlt find ich es eine gute Idee, das Dingen von meinen Posts fernzuhalten. Meinungen?

all 11 comments
sorted by: hot top controversial new old
[–] scorpionix@feddit.de 10 points 1 year ago

Was du im Internet veröffentlichst, ist genau das: veröffentlicht. Auch wenn es von OpenAI nicht indiziert wird, landet es bei diversen anderen Crawler, die einen Pfiff auf die robots.txt geben.

Daher bessere Lösung: Poste nichts online, was du nicht auch der Dame an der Supermarktkasse erzählen würdest.

[–] plistig@feddit.de 9 points 1 year ago (1 children)

Das müsste man vermutlich generell bei Lemmy machen, also deren Machern das vorschlagen, sonst macht das keinen Sinn, weil OpenAI deine Beiträge sonst einfach auf irgendeiner X-beliebigen anderen Instanz lesen kann. https://lemmy.ml/u/the_third@feddit.de https://lemm.ee/u/the_third@feddit.de https://lemmy.world/u/the_third@feddit.de https://beehaw.org/u/the_third@feddit.de

Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

Also zusammengefasst: Einfach nur Mist schreiben, so dass OpenAI deine Posts eh nicht haben will! Ü

[–] the_third@feddit.de 7 points 1 year ago (1 children)

Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

Point taken. Stimmt.

[–] ChrisOboe@feddit.de 3 points 1 year ago (1 children)

Das wäre doch völlig absurd.

Entweder sie sind anständig und honorieren die robots.txt (und setzten keine eigene Instanz auf nur um das zu umgehen)

Oder sie sind unanständig, honorieren die robots.txt nicht und müssen keine eigene Instanz aufsetzten um das zu umgehen.

So oder so wird sicher niemand eine eigene lemmy Instanz aufsetzen nur um daten zu Farmen.

[–] SNAFU@feddit.de 4 points 1 year ago (2 children)

Nur Gefühl oder hast Du auch irgendeine Begründung für den Vorschlag?

[–] the_third@feddit.de 1 points 1 year ago (1 children)

Ja, ich habe aus meinem Reddit-Account ne Menge Zeug gelöscht und nachher erfahren, dass das leider bereits Teil des in GPT-3 verwendeten Datenmodells geworden war, zu dem Zeitpunkt.

[–] SNAFU@feddit.de 2 points 1 year ago (1 children)

Ja, schon klar. Die Frage ist aber: warum möchtest Du das nicht?

[–] the_third@feddit.de 3 points 1 year ago (1 children)

Weil ich die Sorge habe, dass ich im Abstand vieler Monate verknüpfbare wenn auch einzeln harmlose Informationen bereitstelle ohne mir dessen selbst bewusst zu sein.

[–] SNAFU@feddit.de 1 points 1 year ago

Das tust Du möglicherweise, aber dann sind doch LLM nicht die große Gefahr. Und vor allem solltest Du dann eher überlegen, wie Du mit Deinen eigenen daten umgehst.

[–] muelltonne@feddit.de 1 points 1 year ago

Gegenfrage: Brächte es nicht eher eine Begründung, warum eine kommerzielle Firma die von den Usern hier geposteten Inhalte kostenlos für ihre eigenen Produkte abgreifen dürfen sollte ohne auch nur vorher mal zu fragen?