Das Pinke Forum https://www.pinkes-forum.de/forum/ |
|
ChatGPT, Bing AI & Co. https://www.pinkes-forum.de/forum/viewtopic.php?f=58&t=5387 |
Seite 2 von 3 |
Autor: | Brexpiprazole [ Mo 17. Jul 2023, 20:48 ] |
Betreff des Beitrags: | |
Ich hab ChatGPT, als es grad neu am boomen war, für zwei Wochen recht viel benutzt um mich damit zu amüsieren. Man kann den Bot ja, auch heute noch, sehr leicht dazu gaslighten, einem völlig absurde Fehlinfos zu geben und die dann auch vehement zu verteidigen. Ich hab mir mal ne Stunde lang die wildesten Background-Infos und Stories über einen Berserk-Charakter geben lassen, den es überhaupt nicht gibt. Auch immer gut, wenn man es hinkriegt, ihm ein N-Word oder so zu entlocken, für das er sich dann selbst flaggen muss. Mit dem Bot über irgendein ernsthaftes Thema zu diskutieren ist auch oft herrlich; er verhält sich dabei teilweise wie ein verhaltensauffälliges Kleinkind. Irgendwann hat sich das Gimmick aber ausgelutscht; jetzt war ich seit Monaten nicht mehr wirklich drauf. Nur sehr gelegentlich, wenn mir irgendwas witziges einfällt. Am besten kommt das Programm echt, wenn man sich zur eigenen Unterhaltung Geschichten oder so auswerfen lässt, wie nen Sketch über ein Treffen von Peter Lustig und Mr. Bean oder whatever. Da kann der Bot nichts falsch machen. Ich hab ja auch Craiyon am Anfang gerne zur persönlichen Unterhaltung mit absurden Prompts benutzt, und bin mittlerweile echt schockiert über die schiere Menge an Leuten, die diese Image Generators in irgendeiner Form ernst nehmen und sich dabei als "AI Artists" oder so bezeichnen. Wer das für die Schule oder so benutzt spielt echt mit dem Feuer; eins der bekanntesten ChatGPT-Probleme ist ja, dass der Bot ohne zu zögern irgendwelche Quellen zu Studien und dergleichen benutzt und benennt, die es überhaupt nicht gibt. Wir haben aber jetzt schon haufenweise Kinder, die ihre Hausaufgaben nur noch damit machen - und dann auch gerne vergessen, das "as an AI" und so weiter aus dem Text zu entnehmen. Die Schulen müssen sich dringend anpassen und über die neue Technologie sprechen. In Deutschland halt unmöglich; hier wird ja weiterhin nicht mal wirklich beigebracht, wie man eine Suchmaschine benutzt. Ich hatte nen Text von nem Lehrer gesehen, der seine Schüler wissenschaftliche Fehler in ihren Bot-Texten hat suchen lassen, damit die merken, wie shaky und oft einfach erfunden die Infos alle sind. Der Bot klingt ja sehr selbstsicher immer, egal was er sagt - da kann man sich leicht von beeindrucken lassen. Vielen ist glaub echt auch nicht bewusst, dass das keine Künstliche Intelligenz im eigentlichen Sinne ist. Der Bot sitzt einfach in einem klassischen Chinese Room und hat keine Ahnung, was er gerade sagt. https://de.wikipedia.org/wiki/Chinesisches_Zimmer |
Autor: | Paradice [ Sa 22. Jul 2023, 11:49 ] |
Betreff des Beitrags: | |
Spoiler: Evil ChatGPT
|
Autor: | Brexpiprazole [ Sa 22. Jul 2023, 15:09 ] |
Betreff des Beitrags: | |
Over just a few months, ChatGPT went from correctly answering a simple math problem 98% of the time to just 2%, study finds https://fortune.com/2023/07/19/chatgpt- ... ord-study/ Kommentar dazu auf Twitter: "Actually getting stupider over time is the most human trait AI can have" |
Autor: | Wolfsblvt [ So 23. Jul 2023, 18:21 ] |
Betreff des Beitrags: | |
Ist halt lustig wie schnell sich die News sites auf irgendwelche "studies" stürzen. Direkt in den Twitter Threads, wo das diskutiert wird, gibt es diverse Gegenargumente, die das als ziemlich biased outen und dass da viele wichtige Faktoren übersehen werden. Bin bisschen faul gerade, finde die Threads und sourcen nicht mehr. Aber die AI entwickelt sich halt weiter. Einer hat ein riesen Test Dataset gemacht und nachgewiesen, dass seine Ergebnisse seit März deutlich gesunken sind. Kam jemand in den comments mit nem PR zu seinem code und meinte dass ChatGPT jetzt einfach standardmäßig die three backticks (```) für Code-Blocks in der response benutzt, um Code zu formattieren. Hat die in dem test code raus gestripped, und plötzlich zeigte dasselbe Test Dataset ein Erhöhung der Result-Quote? Ist super schwierig sowas zu beurteilen. Aber da sich das Model dauerhaft weiterentwickelt, sind die Antworten selbstverständlich anders nach einem halben Jahr, und man kann nicht 100% darauf bauen, dass der Code, den man damals drumherum gebaut hat, immer noch funktioniert. |
Autor: | Brexpiprazole [ Mo 24. Jul 2023, 01:37 ] |
Betreff des Beitrags: | |
Twitter-Comments sind mittlerweile komplett unusable, es werden ja nur noch die ganzen Blue Checks, Elon-Fanboys, Crypto Bros usw. nach oben gespült, ergo die absolut dümmsten Loser, die jemals über Gottes grüne Erde geschritten sind. Man muss ja nur random den ersten erfolgreichen Tweet öffnen, den man beim Seitenaufruf sieht, und findet direkt darunter als allererstes den mit Abstand hirnrissigsten, wahnsinnigsten, ruchlosesten Take, den sich bis zu diesem Punkt jemals ein Hominide erdacht hat - und das dann auch jedes mal zuverlässig aufs neue. Gut, natürlich keine Ahnung, ob du vielleicht nen Blue Blocker an hast. Spätestens jetzt muss man ethisch ja eigentlich, weil die Blue Checks aktuell durch das Engagement echtes Geld verdienen. Bei Mathe dürfte halt echt vor allem auch das Problem sein, dass ChatGPT ja nicht im eigentlichen Sinne rechnen wird wie ein Taschenrechner, sondern stattdessen predicted, welcher Textauswurf als Reaktion auf die Frage am ehesten den Erwartungen des Users entsprechen könnte. |
Autor: | Latias [ Mo 24. Jul 2023, 18:43 ] |
Betreff des Beitrags: | |
Habe versucht, mir von ChatGPT einen Lernplan erstellen zu lassen, weil ich das selbst beim besten Willen bisher nicht hinbekommen habe. Hat nicht funktioniert - es fehlen viel zu viele Themen, Zeit wird nicht realistisch eingeschätzt etc. Schade. |
Autor: | Wolfsblvt [ Mo 24. Jul 2023, 20:47 ] |
Betreff des Beitrags: | |
Individuelle Anekdoten, Blog-Posts oder analyse-repositories sind jetzt nicht gerade weniger oder mehr beweiskräftig als die diversen clickbait news articles, die man zu dem Thema finden kann - unter anderem die von dir zitierte News, die auf eine Seite verweist, die direkt auffordert ein Abo zum Lesen abzuschließen, selbst mit Adblocker, wenn man den ganzen Artikel lesen will. Alle weiteren News der letzten Tage, die ich per google finden konnte, beziehen sich auf genau dieselbe Studie, und wiederholen dieselben Punkte daraus. Dazu kommt dann noch diverse Anekdokten-Stories von aktiven Nutzern von ChatGPT, die sich alle sicher sind, dass ChatGPT abgenommen hat in Qualität. Dieselben Leute, die übrigens OpenAI direkt gas lighting vorwerfen, und dass man sie an der Nase herumführt. Im Bezug auf deinen Artikel, diese Newsseiten tun ja auch nichts anderes, als andere Seiten oder Sources zu scrapen, um dann mittels AI halbgare Artikel rauszurotzen, um die Clicks zu erhöhen. Bin aktuell etwas verwirrt, wieso du dem mehr glauben schenkst. Aber wie gesagt, ich gebe offen zu dass ich eigentlich zu lazy bin dir Quellen und Gegenbeweise rauszusuchen. Die Studie steht natürlich, auch unabhängig von den "News", die diese wiedergeben. Aber nur weil es eine Studie ist, heißt das ja nicht, dass die Ergebnisse nicht scharf hinterfragt werden sollten. Wäre nicht das erste Mal, dass Studien völlig biased veröffentlich werden, oder stark am Thema vorbeiarbeiten, oder. Naja wayne, dachte mir dann viel labern und nix begründen ist auch bisschen dumm. Also dann hier worauf ich mich beziehe. Capability ≠ behavior One important concept to understand about chatbots is that there is a big difference between capability and behavior. A model that has a capability may or may not display that capability in response to a particular prompt. Chatbots acquire their capabilities through pre-training. [...] On the other hand, their behavior is heavily affected by fine tuning, which happens after pre-training. Fine tuning is much cheaper and is done regularly. Note that the base model, after pre-training, is just a fancy autocomplete: It doesn’t chat with the user. The chatting behavior arises through fine tuning. Another important goal of fine tuning is to prevent undesirable outputs. In other words, fine tuning can both elicit and suppress capabilities. Knowing all this, we should expect a model’s capabilities to stay largely the same over time, while its behavior can vary substantially. This is completely consistent with what the paper found. No evidence of capability degradation [...] The four tasks they selected were a math problem (checking if a number is prime), responding to sensitive questions, code generation, and visual reasoning. They found a performance degradation on two tasks: math problems and code generation. For code generation, the change they report is that the newer GPT-4 adds non-code text to its output. For some reason, they don't evaluate the correctness of the code. They merely check if the code is directly executable — that is, it forms a complete, valid program without anything extraneous. So the newer model's attempt to be more helpful counted against it. There is more weirdness in the way they evaluated math problems. 500 yes / no questions, but the correct answer is always yes The math questions were of the form “Is 17077 prime”? They picked 500 numbers, but all of them were prime! [...] As we mentioned, the paper only evaluated primality testing on prime numbers. To supplement this evaluation, we tested the models with 500 composite numbers. It turns out that much of the performance degradation the authors found comes down to this choice of evaluation data. What seems to have changed is that the March version of GPT-4 almost always guesses that the number is prime, and the June version almost always guesses that it is composite. The authors interpret this as a massive performance drop — since they only test primes. For GPT-3.5, this behavior is reversed. In reality, all four models are equally awful, as you can see in the following graph. They all guess based on the way they were calibrated. To simplify a bit, during fine tuning, maybe some model was exposed to more math questions involving prime numbers, and the other, composites. The June version of GPT-3.5 and the March version of GPT-4 almost always conclude that the number is prime regardless of whether it is prime or composite. The other two models do the opposite. But the paper only tested prime numbers, and hence concluded that GPT-3.5’s performance improved while GPT-4’s degraded. In short, everything in the paper is consistent with the behavior of the models changing over time. None of it suggests a degradation in capability. Even the behavior change seems specific to the quirks of the authors’ evaluation, and it isn’t clear how well their findings will generalize to other tasks. Why did the paper touch a nerve? For the last couple of months, many AI enthusiasts have been convinced, based on their own usage, that GPT-4’s performance has degraded. When GPT-4’s architecture was (allegedly) leaked, there was a widely viewed claim that OpenAI degraded performance to save computation time and cost. OpenAI, for its part, issued a clear denial that they degraded performance, which was interpreted by this community as gaslighting. So when the paper came out, it seemed to confirm these longstanding suspicions. [...] But there is another possibility. Behavior drift makes it hard to build reliable products on top of LLM APIs The user impact of behavior change and capability degradation can be very similar. Users tend to have specific workflows and prompting strategies that work well for their use cases. Given the nondeterministic nature of LLMs, it takes a lot of work to discover these strategies and arrive at a workflow that is well suited for a particular application. So when there is a behavior drift, those workflows might stop working. It is little comfort to a frustrated ChatGPT user to be told that the capabilities they need still exist, but now require new prompting strategies to elicit. This is especially true for applications built on top of the GPT API. Code that is deployed to users might simply break if the model underneath changes its behavior. To alleviate this problem, OpenAI provides snapshots, but only maintains them for a few months and requires application developers to update regularly. As we have written before, this underscores how hard it is to do reproducible research that uses these APIs, or to build reliable products on top of them. ~ In short, the new paper doesn’t show that GPT-4 capabilities have degraded. But it is a valuable reminder that the kind of fine tuning that LLMs regularly undergo can have unintended effects, including drastic behavior changes on some tasks. Finally, the pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models. Quelle: https://www.aisnakeoil.com/p/is-gpt-4-g ... -over-time Kommt von einem Prof aus Princeton. Man kann natürlich den auch als "dümmste Loser" abtun, die in den Twitter-comments auftauchen um zu so einem Thema Stellung zu beziehen. Ist halt aber kein elon fanboy und hat kein blue checkmark. Hmmmh. Sein Twitter-Thread dazu ist hier: https://twitter.com/random_walker/statu ... 1163912194 Ist sehr interessant zu lesen. Das comment mit dem angedeuteten Fix des Test-Repositories habe ich auch gefunden. Gerne auch den gesamten Thread dazu lesen, da taucht auch einer der Researcher, die das Paper veröffentlicht haben, und verteidigt dies mit ein paar Kommentaren. Kann natürlich jeder für sich selbst entscheiden, ob eine einfache Formattierungsänderung in der response für den Code-Testfall eine "Verschlechterung des Ergebnisses ist". Hier kann man gerne auch in Erwägung ziehen, dass es um ChatGPT geht, ein Tool dass primär chatted und für einen Menschen lesbare und verständliche Antworten produzieren soll. Das LLM ist nicht direkt auf die Ausgabe von maschineninterpretierbaren Ergebnissen trainiert, sondern eben genau für den Menschen. Gut erkennbar auch an dem mittlerweile sehr bekannten und gut erkennbaren Style von ChatGPT, wie es schöne Listen mit Nummerierungen und Überschriften gibt. In dem Fall hat das Model die Markdown-Tags um den Code drumherum gebaut, damit in der Response der Code für den Chat automatisch schön leserlich formatiert wird. Zugegeben hat das prompt explizit aufgefordert, nur den Code auszugeben. Aber auch hier debatable, wenn letztlich im Chat lesbar nur der Code erscheint, hat das Model die Anfrage dann falsch interpretiert? Für nicht-Programmierer hier aus den Kommentaren geklaut eine visuelle Darstellung der Änderung in diesem Test case: Beziehungsweise wird mir jetzt gerade klar, dass du nirgendwo explizit genannt hast, dass diese Studie korrekt ist oder du dieser Glauben schenkst - weder in deinem News-Post, noch in deiner Antwort auf mich. Du hast eher nur herausgepickt zu begründen, warum mein Bezug auf "huh, vielleicht hinterfragen, direkt in den Twitter comments wird das schon relativ schlüssig wiederlegt, vermutlich ist das nicht so simpel" eine dumme Idee ist, weil Twitter scheiße ist. Oder so. Das hat natürlich keinen direkten Bezug, und macht meine ganze Arbeit eigentlich unnötig, weil es niemals um die Diskussion um das eigentliche Thema ging. Aber jetzt bin ich zu faul den ganzen Post noch zu editieren, und sende den einfach so ab. |
Autor: | Magnetar [ Di 25. Jul 2023, 13:57 ] |
Betreff des Beitrags: | |
Ich wuesste nicht, wofuer ich sowas verwenden sollte. Bei meinen Themen heissts entweder "Sicherheitsrisiko" oder es kommen komplett falsche Infos raus. |
Autor: | Transalpin [ Di 25. Jul 2023, 22:01 ] |
Betreff des Beitrags: | |
Ich wuesste nicht, wofuer ich sowas verwenden sollte. Mir ist bisher auch nichts eingefallen. ChatGPT kann zwar wohl z.B. Arduino-Quellcodes produzieren, aber je komplexer die werden, desto mehr muss man (im Moment jedenfalls) nacharbeiten, und das Selbstmachen ist ja außerdem gerade der Spaß an der Sache, wieso sollte ich mir den nehmen lassen? Immerhin, die Vorteile des Modellbahnhobbys hat das Ding ganz gut zusammengefasst |
Autor: | Paradice [ Sa 29. Jul 2023, 10:28 ] |
Betreff des Beitrags: | |
Over just a few months, ChatGPT went from correctly answering a simple math problem 98% of the time to just 2%, study finds https://fortune.com/2023/07/19/chatgpt- ... ord-study/ Kommentar dazu auf Twitter: "Actually getting stupider over time is the most human trait AI can have" Fuck ich sollte aufhören meine Brötchen zu essen. |
Autor: | Brexpiprazole [ Do 17. Aug 2023, 00:33 ] |
Betreff des Beitrags: | |
https://twitter.com/itsandrewgao/status ... 5717379074 Gruselig. Momentan funktioniert das auch tatsächlich noch, und der Tweet ist jetzt ja ne Woche alt: https://scholar.google.com/scholar?hl=e ... T%E2%80%9D Ein paar der Quellen selbst haben die verräterischen Stellen aber seither definitiv entnommen, sie sind nur noch in der Vorschau drin. Das macht es halt offensichtlich nicht besser, eher im Gegenteil. An sich ist es ja ganz angenehm, wie viele Leute zu doof dafür sind, diese Stellen zu entfernen. |
Autor: | Paradice [ Do 9. Nov 2023, 11:44 ] |
Betreff des Beitrags: | |
Wenn ChatGPT keinen Bock mehr hat: |
Autor: | Brexpiprazole [ Fr 1. Dez 2023, 00:38 ] |
Betreff des Beitrags: | |
Autor: | Transalpin [ Fr 1. Dez 2023, 00:49 ] |
Betreff des Beitrags: | |
In einem Modellbahnforum waren letztens KI-Bilder von Bing zu sehen. Aus großer Entfernung sah es schon irgendwie nach Modellbahn aus, im Detail allerdings doch sehr verworren. Gleise und Brücken ins Nichts, um Kurven gebogene Fahrzeuge, Loks ohne Führerstand, von Wasserfällen überspülte Strecken, die Züge ein wilder Mix aus europäischer, amerikanischer und asiatischer Optik, gepaart mit einem Hauch Lego. Das war wie diese Bilder, die umso seltsamer werden, je länger man draufstarrt. Und als ich mir ebenfalls mit Bing eine virtuelle Freundin generieren wollte, hieß es teilweise, das ginge nicht wegen nicht erlaubter Inhalte, dabei waren meine Vorgaben vollkommen jugendfrei und auch sonst harmlos |
Seite 2 von 3 | Alle Zeiten sind UTC + 1 Stunde [ Sommerzeit ] |
Powered by phpBB® Forum Software © phpBB Group http://www.phpbb.com/ |