RLHF (LOC)

Mentions of RLHF by segment

2025-08-05: AI-inducerade psykoser allt vanligare och språkmodellernas extrema sykofanti misstänkts vara central mekanism

den ultracykofantiska tendensen. För mig så är det här mest som en kul grej. Och jag gör en mental notering om att den här säkerheten som RLHF och så vidare säger sig är förmodligen ganska tunn. (471.6) För att jailbreaking är inte ens en grej längre. Man behöver inte ha någon särskild specialpron för att jailbreak en LM.

2025-07-17: Grok blir oväntat baserad och hyllar Hitler på X

Vilket gör att de alla låter väldigt lika varandra. De har samma moral inkodad. Och teckningen så handlar det om någonting som kallas för RLHF. (437.0) Reinforcement Learning with Human Feedback. Och i praktiken så är det en sorts man visar dem exempel på en fråga och sen sån

Och sen så tränar man upp dem. Och då köper de här AI-företagen, de köper in från samma leverantörer sådana här datasätt med frågor och svar som de använder för RLHF. (463.3) Och det är därför de har en väldigt liknande moralfilosofi. Så det finns liksom en hovleverantör av moral som alla köper från,

Back to Entities