Individuelle Anekdoten, Blog-Posts oder analyse-repositories sind jetzt nicht gerade weniger oder mehr
beweiskräftig als die diversen clickbait news articles, die man zu dem Thema finden kann - unter anderem die von dir zitierte News, die auf eine Seite verweist, die direkt auffordert ein Abo zum Lesen abzuschließen, selbst mit Adblocker, wenn man den ganzen Artikel lesen will.
Alle weiteren News der letzten Tage, die ich per google finden konnte, beziehen sich auf genau dieselbe Studie, und wiederholen dieselben Punkte daraus. Dazu kommt dann noch diverse Anekdokten-Stories von aktiven Nutzern von ChatGPT, die sich alle sicher sind, dass ChatGPT abgenommen hat in Qualität. Dieselben Leute, die übrigens OpenAI direkt gas lighting vorwerfen, und dass man sie an der Nase herumführt.
Im Bezug auf deinen Artikel, diese Newsseiten tun ja auch nichts anderes, als andere Seiten oder Sources zu scrapen, um dann mittels AI halbgare Artikel rauszurotzen, um die Clicks zu erhöhen.
Bin aktuell etwas verwirrt, wieso du dem mehr glauben schenkst. Aber wie gesagt, ich gebe offen zu dass ich eigentlich zu lazy bin dir Quellen und Gegenbeweise rauszusuchen.
Die Studie steht natürlich, auch unabhängig von den "News", die diese wiedergeben. Aber nur weil es eine Studie ist, heißt das ja nicht, dass die Ergebnisse nicht scharf hinterfragt werden sollten. Wäre nicht das erste Mal, dass Studien völlig biased veröffentlich werden, oder stark am Thema vorbeiarbeiten, oder.
Naja wayne, dachte mir dann viel labern und nix begründen ist auch bisschen dumm. Also dann hier worauf ich mich beziehe.
Capability ≠ behavior
One important concept to understand about chatbots is that there is a big difference between capability and behavior. A model that has a capability may or may not display that capability in response to a particular prompt.
Chatbots acquire their capabilities through pre-training. [...] On the other hand, their behavior is heavily affected by fine tuning, which happens after pre-training. Fine tuning is much cheaper and is done regularly. Note that the base model, after pre-training, is just a fancy autocomplete: It doesn’t chat with the user. The chatting behavior arises through fine tuning. Another important goal of fine tuning is to prevent undesirable outputs. In other words, fine tuning can both elicit and suppress capabilities.
Knowing all this, we should expect a model’s capabilities to stay largely the same over time, while its behavior can vary substantially. This is completely consistent with what the paper found.
No evidence of capability degradation[...]
The four tasks they selected were a math problem (checking if a number is prime), responding to sensitive questions, code generation, and visual reasoning. They found a performance degradation on two tasks: math problems and code generation.
For code generation, the change they report is that the newer GPT-4 adds non-code text to its output.
For some reason, they don't evaluate the correctness of the code. They merely check if the code is directly executable — that is, it forms a complete, valid program without anything extraneous. So the newer model's attempt to be more helpful counted against it.
There is more weirdness in the way they evaluated math problems.
500 yes / no questions, but the correct answer is always yesThe math questions were of the form “Is 17077 prime”? They picked 500 numbers, but all of them were prime!
[...]
As we mentioned, the paper only evaluated primality testing on prime numbers. To supplement this evaluation, we tested the models with 500 composite numbers. It turns out that
much of the performance degradation the authors found comes down to this choice of evaluation data.What seems to have changed is that the March version of GPT-4 almost always guesses that the number is prime, and the June version almost always guesses that it is composite. The authors interpret this as a massive performance drop — since they only test primes. For GPT-3.5, this behavior is reversed.
In reality, all four models are equally awful, as you can see in the following graph. They all guess based on the way they were calibrated. To simplify a bit, during fine tuning, maybe some model was exposed to more math questions involving prime numbers, and the other, composites.
The June version of GPT-3.5 and the March version of GPT-4 almost always conclude that the number is prime regardless of whether it is prime or composite. The other two models do the opposite. But the paper only tested prime numbers, and hence concluded that GPT-3.5’s performance improved while GPT-4’s degraded.In short, everything in the paper is consistent with the behavior of the models changing over time. None of it suggests a degradation in capability. Even the behavior change seems specific to the quirks of the authors’ evaluation, and it isn’t clear how well their findings will generalize to other tasks.Why did the paper touch a nerve?For the last couple of months, many AI enthusiasts have been convinced, based on their own usage, that GPT-4’s performance has degraded. When GPT-4’s architecture was (allegedly) leaked, there was a widely viewed claim that OpenAI degraded performance to save computation time and cost. OpenAI, for its part, issued a clear denial that they degraded performance, which was interpreted by this community as gaslighting. So when the paper came out, it seemed to confirm these longstanding suspicions.
[...]
But there is another possibility.
Behavior drift makes it hard to build reliable products on top of LLM APIsThe user impact of behavior change and capability degradation can be very similar. Users tend to have specific workflows and prompting strategies that work well for their use cases. Given the nondeterministic nature of LLMs, it takes a lot of work to discover these strategies and arrive at a workflow that is well suited for a particular application. So when there is a behavior drift, those workflows might stop working.
It is little comfort to a frustrated ChatGPT user to be told that the capabilities they need still exist, but now require new prompting strategies to elicit. This is especially true for applications built on top of the GPT API. Code that is deployed to users might simply break if the model underneath changes its behavior.
To alleviate this problem, OpenAI provides snapshots, but only maintains them for a few months and requires application developers to update regularly. As we have written before, this underscores how hard it is to do reproducible research that uses these APIs, or to build reliable products on top of them.
~
In short, the new paper doesn’t show that GPT-4 capabilities have degraded. But it is a valuable reminder that the kind of fine tuning that LLMs regularly undergo can have unintended effects, including drastic behavior changes on some tasks. Finally, the pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.
Quelle: https://www.aisnakeoil.com/p/is-gpt-4-g ... -over-time Kommt von einem Prof aus Princeton. Man kann natürlich den auch als "dümmste Loser" abtun, die in den Twitter-comments auftauchen um zu so einem Thema Stellung zu beziehen. Ist halt aber kein elon fanboy und hat kein blue checkmark. Hmmmh.
Sein Twitter-Thread dazu ist hier:
https://twitter.com/random_walker/statu ... 1163912194Ist sehr interessant zu lesen.
Das comment mit dem angedeuteten Fix des Test-Repositories habe ich auch gefunden.
Gerne auch den gesamten Thread dazu lesen, da taucht auch einer der Researcher, die das Paper veröffentlicht haben, und verteidigt dies mit ein paar Kommentaren.
Kann natürlich jeder für sich selbst entscheiden, ob eine einfache Formattierungsänderung in der response für den Code-Testfall eine "Verschlechterung des Ergebnisses ist".
Hier kann man gerne auch in Erwägung ziehen, dass es um
ChatGPT geht, ein Tool dass primär chatted und für einen Menschen lesbare und verständliche Antworten produzieren soll. Das LLM ist nicht direkt auf die Ausgabe von maschineninterpretierbaren Ergebnissen trainiert, sondern eben genau für den Menschen.
Gut erkennbar auch an dem mittlerweile sehr bekannten und gut erkennbaren Style von ChatGPT, wie es schöne Listen mit Nummerierungen und Überschriften gibt.
In dem Fall hat das Model die Markdown-Tags um den Code drumherum gebaut, damit in der Response der Code für den Chat automatisch schön leserlich formatiert wird.
Zugegeben hat das prompt explizit aufgefordert, nur den Code auszugeben. Aber auch hier debatable, wenn letztlich im Chat lesbar nur der Code erscheint, hat das Model die Anfrage dann falsch interpretiert?
Für nicht-Programmierer hier aus den Kommentaren geklaut eine visuelle Darstellung der Änderung in diesem Test case:
Beziehungsweise wird mir jetzt gerade klar, dass du nirgendwo explizit genannt hast, dass diese Studie korrekt ist oder du dieser Glauben schenkst - weder in deinem News-Post, noch in deiner Antwort auf mich. Du hast eher nur herausgepickt zu begründen, warum mein Bezug auf "huh, vielleicht hinterfragen, direkt in den Twitter comments wird das schon relativ schlüssig wiederlegt, vermutlich ist das nicht so simpel" eine dumme Idee ist, weil Twitter scheiße ist. Oder so.
Das hat natürlich keinen direkten Bezug, und macht meine ganze Arbeit eigentlich unnötig, weil es niemals um die Diskussion um das
eigentliche Thema ging. Aber jetzt bin ich zu faul den ganzen Post noch zu editieren, und sende den einfach so ab.