Transkribering
Midjourneys grundare David Holz intervjuas om tjänsten där en gemenskap av användare genererar konst tillsammans med självlärande algoritmer
Martin
Mid Journeys grundare David Holtz intervjuas om tjänsten där en gemenskap av användare genererar konst tillsammans med självlärande algoritmer baserat på enorm bildbank som källa. Satsar på organisk tillväxt och ser företaget som ett livsstils- och forskningsprojekt där användarna självfinansierar forskningen. Mid Journey är någonting som blivit en snackis.
Vi har en väldigt livlig BBS-tråd. Vi pratar om Mid Journey, men också givetvis i andra kretsar har det blivit en väldigt stark, memetisk superhit. Det är lite svårt. Jag måste lägga lite tid till att förklara vad det är för någonting. Det är inte alla som har lyssnat på det bubbla som har kollat upp det såklart. Och om några år så kommer det eventuellt vara totalt obegripligt om vi inte förklarar det lite grann.
Mid Journey är en datortjänst, datorsystem, en mjukvarutjänst som... genererar bilder av ålderslag. Det fungerar ganska enkelt, man matar in en mening i systemet som beskriver en bild och ut kommer en sådan bild. Man väntar en minut och så får man en bild som beskrivs av den text man matar in. Och det som gör att det här forskar spridning är att resultaten är spektakulärt bra.
De är träffande och fantasiäggande och vackra. Så vid det här laget sitter hundratusentals människor och experimenterar och får det här systemet att generera mer och mer bilder. intressanta bilder. Folk sitter och nästan knarkar de här bilderna. Det blir beroende från kallande att sitta och titta och mata in sak efter sak och titta på bild efter bild. Det är en väldigt stark effekt på människor och berör människor känslomässigt.
Det har verkligen blivit ett fenomen. Och inte bara för att beskriva lite kort vad det handlar om. Det är inte bara det att bilderna kan avbilda allt mellan himmel och jord, utan det är också att bilderna kan avbilda allt mellan hem och kan. Göra ut bilderna med massor med olika stilar. Så du kan be om att få kanske ett porträtt av Donald Trump målat av Vincent Van Gogh.
Och då kommer du få någonting som man direkt känner igen, både som föreställandes Trump men också som en Van Gogh-pastish. Det kommer vara direkt igenkändligt som en Van Gogh-stil. Och det är olika bra på att imitera olika konstnärer. Men till exempel upptäckte jag att det är väldigt bra på att göra Anders son. Den blir väldigt träffande och det blir väldigt vackra bilder. Den är också bra på Leonardo da Vinci. Det finns ett favoritgenre som många använder.
Det är att få diverse saker avbildade som om de var hämtade ur Leonardo's anteckningsböcker. Det blir väldigt intressant och fantasiäggande. Man interagerar med Mid Journey genom att logga in på Discord, den här chattplattformen som vi en gång i tiden använde ganska flitigt för Radio Bubbla och Radio BBS. Men som egentligen är mest till för...
som framförallt används av dataspelspelare. Där skriver man in instruktioner till systemet i en chattkanal som är i grundläget och är synlig för alla andra användare och som svarar ett robotkonto med de bilder man har beställt. Det gör att man befinner sig hela tiden i ett väldigt märkligt flöde där hundratals andra användare beställer bilder i samma kanal.
Det är som en flod av bilder med helt olika motiv, olika stilar, olika... Det är en väldigt märklig användarupplevelse. På många sätt en väldigt dålig användarupplevelse. Bland annat därför att det kan vara svårt att hitta sina egna bilder. För det hela tiden kommer så mycket annat i vägen. Så att du gör en beställning och sen bara flyger du förbi en massa andra bilder. Och sen någonstans där dyker din bild upp. Så du måste ha koll liksom.
Men det är också en unik upplevelse därför att den är så social och kollaborativ. på ett väldigt särregelt sätt. Man får hela tiden idéer också från andras instruktioner och andras bilder. Och man kan se hur folk hela tiden riffar på varandras idéer och plockar upp liksom delar av instruktioner från ett projekt över till ett annat. Och det är en väldigt konstig upplevelse.
Jag vet inte om jag tycker att det är en bra upplevelse. På många sätt är det en dålig och konstig upplevelse. Men det är i alla fall väldigt annorlunda. Det är annorlunda än allting annat. Som ni vet så är en helt ny sorts användarupplevelse ett nytt sorts ramverk för visuellt skapande. Även jämfört med de andra AI-systemen för att generera bilder som Dali och andra som finns.
Jag satt själv med Midjourney i ganska många timmar i samband med att det var någon månad sedan. Och jag fick ut ganska mycket av det. Framförallt så testar jag att göra illustrationer av ganska abstrakta idéer som... Jag själv inte kunde visualisera och de tolkningar som jag fick av systemet var genuint intressanta. Det var jätteintressant för mig att se de här idéerna som fascinerade mig men som jag själv inte kan att liksom...
David Holtz skapar i den här intervjun att många använder Midjourney som ett verktyg för känslomässig och intellektuell reflektion. Jag är fascinerad av det här men det har också uppstått en liten debatt på WCN som jag tycker är superintressant. Vi fick ett inlägg från en person som själv är medveten om Midjourney.
bildkonstnär Erik. Han är en målare. Han ställer ut sina målningar på gallerier och säljer sina målningar och så vidare. Han och han är en intressant tänkare som reflekterar de här sakerna. Han uttryckte en del skeptiska reflektioner. Han pekade på vad han menar då är stora skillnader mellan mänsklig konst och AI-genererade bilder.
Jag gav några reflektioner i motsatt riktning för att balansera bilden. Jag är nyfiken på vad du Boris tänker kring de här sakerna. Kan de här bilderna som skapas av Mid-Journey kallas för konst? Och vad betyder det att de kan eller inte kan det och spelar det någon roll?
Boris
Ja, alltså det här har upptagit mig intjänst är i efterhand i rätt många tanketimmar när jag har promenerat i sommar. Jag har mest funderat på det i form av litteratur. Men jag kommer till det senare. När det här kom upp och du tog upp det tidigare för att... Så jag började titta på bilderna.
Det hade gjort att jag blev väldigt förväntansfull och nyfiken på dem. Jag hade tittat på rätt många bilder och då var jag besviken. En del av bilderna hade en sådan kvalitet så att de faktiskt hade fungerat utmärkt som magasinsillustrationer i bilder.
i rätt flärsiga magasiner som tidningsillustrationer till exempel, eller som bokomslag till och med. Så pass bra slagkraftiga var de. Men jag hade väntat mig så mycket mer, och då gick jag ett tag och funderade på är det bara en försvarsmekanism hos mig att jag tänker att det borde vara bättre? Det är inte som riktig konst, alltså det är inte som de stora mästarna.
Men jag kom fram till att det var inte det som gjorde att jag tyckte att det var inte tillräckligt bra, utan det var mer att jag ställde sig inför frågan Varför blir det inte tillräckligt bra? Det borde ju rimligen gå att skapa konst som inte ens en expert skulle kunna göra.
att säga att nej men det där är alltså en riktig Grant Wood. Det ser väl jag det, försök inte. Ett okänt verk av honom. Och så nästa steg var att jag började förbanna mig själv för det här kan så fruktansvärt lite om det rent tekniska. Och så började jag istället grubbla på något som var mer lättantalet för mig än konst. Och det var liksom frågan om att Skulle det inte gå att...
jag fixerade mig i två Strindberg-böcker. Skulle det inte gå att skapa en Röda rummet 2022 och en Svarta faner 2022, som om Strindberg levde idag? Jag började stolpa upp och rita skisser på vad man skulle behöva utgå från och vad skulle styra skrivandet.
och på avskrivningen börjar ladda ner det hela. Så att åsikta tillbaka lite konsten nu och alltså min ståndpunkt är nog att nämen det måste rimligtvis gå att skapa med objektiva kriterier sett riktigt stor och bra konst. För att jag har inte sett den än. Precis som det måste gå att skapa sanslöst bra romaner med liknande metoder. Jag har inte läst någon än, men det beror på att jag inte har läst någon. Det finns ju, som du påpekar, romaner, men jag har inte läst någon av dem. Kanske finns ett mästerverk där.
Martin
Ja, jag tror att du är på rätt spår här, Boris. Det borde gå att göra både den ena och den andra, men det är ingen som har gjort det än. Och även medierna i de här systemen, de är väldigt, väldigt primitiva. De är oerhört grova och primitiva jämfört med vad som kommer att kunna finnas i framtiden. Med tanke på att det här är den första generationen. På ett par års tid så har det funnits system tillgängliga för fler än topp AI-forskare som har kunnat använda de här systemen.
Så det här är de allra första baby-stegen i den här riktningen. Det finns tydligen då, som jag upptäckte i eftermiddags, hundratals böcker skrivna av AI-system, eller skrivna av människor med hjälp av AI-system. Man kan köpa många av dem på Amazon. Och vissa av dem är liksom, det finns någon däckare, någon science fiction-roman och så vidare, som delvis är skriven med den här GPT-3-textmodellen som finns, som är alltså textgenereringssystem.
Det kommer förmodligen gå att göra sådana saker i framtiden, inklusive Strindberg-romaner, men vi är inte riktigt där än. Nu krävs det väldigt mycket handhållning från människorna i många steg längs vägen. Och det är som... Det som David Holtz påpekar i den här intervjun är att konstnärer är mycket bättre än andra människor på att använda Mid-Journey. De får mycket bättre resultat. I slutänden så, under väldigt lång tid i alla fall, kommer det vara så att det framförallt är konstnärer som kommer att kunna använda de här bildverktygen och förmodligen framförallt duktiga författare som kan använda ett AI-system för att skriva en bok. Det kommer att ta lång tid innan en kan skriva en hel bok.
Boris
Det beror på min synnerligen begränsade kunskap på det här området. Hur man programmerar de här grejerna. Men ska man skapa stor konst, då räcker det ju inte med att... Maskineriet på onytt uttryck, kan liksom stilgreppen i till exempel Da Vincis målande och tecknade och så vidare.
Man måste ladda in i det här som parametrar. Sinnestillståndet när han skapade ett visst konstverk till exempel. Massa saker. Som jag inte ens vet om han kan ladda ner eller styra. Men. Eller, den här boken ska skrivas av en person vars depression kännestecknas av följande saker och han ska också vara svulten under tiden han skriver boken och så vidare.
Men, alltså jag ser framför mig arbetslag som kan olika delar av, som kan texten, som kan den sociala situationen, som kan författarens eller konstnärers. psyke vid den givna tidpunkten. Och då måste man kunna skapa ett ett storslaget konstverk som om han hade levt nu det där jag är ute efter.
Martin
Jag tror att du är inne på en del viktiga saker och det har mycket att göra med det tekniska. Jag tänkte inte kanske inte säga så mycket om det tekniska men nu sa du upp det. Vilken betydelse det har, vilken specifik teknik som används. Det finns intressanta saker där faktiskt. Den teknik som används för Mid Journey och även de här textsystemen. Det handlar om något som kallas maskininlärning, machine learning eller ML.
Det är det dominerande paradigmet just nu inom det man kallar ibland för AI, Artificerad intelligens. Jag är inte jättepersust i den termen. Jag tycker det är bättre att prata om till exempel ML, men det är egentligen en sidorsak. Men det går till så att man tränar en så kallad modell. Det är ett tekniskt term, man har en modell som man tränar på befintligt material. Tränningen består av det enkla uttrycket att systemet tuggar i sig en massa existerande bilder eller texter.
Men i Midyear-fallet är det bilder och information som är associerade med de bilderna. Till exempel alla målningar av Van Gogh, eller alla målningar av Grant Wood. Inklusive informationen om att de är målade av Van Gogh, inklusive information om vad de föreställer, alla möjliga beskrivningar, omdömen som finns om dem, allt som ni kan suga in från internet. Så att den vet vad den ska associera de här bilderna, de här bildelementen till.
Men det är inte bara målningar och berömda målar, utan i princip alla bilder. Miljarder olika bilder. Målningar, illustrationer, fotografier, kartor. Förmodligen helt enkelt allt visuellt material som går att hitta via öppna källor. Kanske även till exempel de enskilda stillbilderna i diverse filmer, att man suger in dem också. Men man matar in alltihop i någonting som man kan tänka på som ett gigantiskt neuronalt nätverk.
Så det handlar inte om symboliska representationer av fakta eller av slutsatser som systemet har dragit. Det är på många sätt en mycket mer grov process där varje nytt träningsstimulus imprentas på en och samma modell eller nätverk.
Det här är alltså något som är modellerat på hur biologiska hjärnor och nervsystem fungerar. Det här blir lite intressant, för att enskilda hjärnceller, till exempel människohjärnan, är inte specialiserade på det sättet att ett visst nevron bara sysslar med en viss typ av informationsprocessning, utan det finns en hel del specialisering mellan regioner i hjärnan.
Det är för att en del av hjärnan processar synintryck, en annan kontrollerar kroppsrörelser, eller vad det nu kan vara för någonting. Men både inom och mellan regionerna finns det enormt mycket överlappning, så att en viss hjärncell, är involverad i mängder av olika uppgifter beroende på vilken kontext den aktiveras. Och det här är alltså en helt annan sorts arkitektur än vad vi har till exempel i hårdvaran i en dator.
Varje komponent i en dator har en exakt funktion som i princip aldrig ändras. Och allting är prydligt organiserat, begripligt, spårbart. Du kan plocka isär en dator och räkna ut exakt vilken funktion varje enskild komponent fyller. Ända ner till minst ett transistor på processörchippet. Det kan man inte göra med en ML-modell.
Det är helt meningslöst att försöka förstå de enskilda tensorerna som det kallas. En tensor är ett mångdimensionellt matematiskt objekt som är grundobjektet, atomerna i ett sånt här system. Jag förenklar lite grann nu, men det är ungefär korrekt. I sådana här ML-system så har man den typen av matematiska objekt.
att försöka förstå vad en viss tensor gör. Det är ungefär som att försöka gå till botten med vad en enskild hjärncell har för funktion. Och enkelt ut kan man säga att den frågan kan inte besvaras. Inte för att de inte är tillräckligt smarta, utan för att frågan är i grunden felställd. Det är inte på den nivån som systemet lär sig saker och modellerar information.
Så det är lite ironiskt, men de här ML-systemen innebär att de här röriga, obegripliga... oändligt ljukstoppositionerade cellerna i människohjärnan först skapar ett system av perfekt ordning och begriplighet i form av datorhårdvaran. Och sen använder man den hårdvaran för att köra en mjukvara som är precis lika rörig och obegriplig som människohjärnan.
Det är det som man började med. Så att våra bästa försök att gå bortom våra biologiska hjärnors begränsningar kommer till slut tillbaks till att efterlikna våra hjärnor snarare än att skapa något. Något som är annorlunda och i grunden bättre. Och det här är det jag vill säga för att knyta an till din reflektion, Boris. Man kan säga om man tar sig till frihet att vi själva upplever oss normalt som medvetna, som man brukar säga.
Alltså överlag så är vi ganska linjära, rationella, reflektiva. Men närmare analys av människan visar att vi framförallt fungerar på grundvall av vårt undermedvetna. Man brukar säga att det medvetna är bara toppen av ett isberg, det som finns där under är undermedvetna. Och det är egentligen att överskatta det medvetna storlek i förhållande till det undermedvetna. Men på ett liknande sätt kan man säga att våra försök att skapa väl sorterade, rationalistiska datorsystem nådde en sorts återvändsgränd.
Och för att fortsätta så måste vi nu skapa någonting i datorerna som liknar gigantiska, digitala, undermedvetna. Undertextning.nu Vars funktioner vi inte förstår, men vars frukter vi kan använda oss av. Precis som att vårt medvetna tänkande är användbart för oss, trots att vi inte har en aning om hur vårt undermedvetna intellekt genererar de tankarna. Det är en liten utvikning, men jag tycker det är så spännande att tänka på de här sakerna.
Det är skrämmande, det är också oerhört fascinerande. Men jag förstår det vi är ute efter, att nu har vi bara byggt det gigantiska undermedvetet. Vi har ingen medveten intellektuell överbyggnad. Tack till elever och personal vid Värmlands universitet. Vi har bara en rått gigantiskt undermedveten. Jag tänker att det knyter an till din idé här om att... Ja, precis. Vi har återskapat en dimension, men det finns en annan dimension.
Boris
Martin
Och där skulle vi liksom, det finns ju andra paradigmer inom AI-utveckling som funkar på ett helt annat sätt. Alltså maskininlärning är absolut inte det enda, det är bara det som genereras. Det har fått fantastiskt bra resultat just nu. Men det är en väldigt grov metod och det är en metod som bygger på att man har datorer bokstavligt stora som hus, man har datorer som är hela hus.
Super-datorer som tar upp ett helt datacenter. Så mycket datorkraft behöver man för att göra intressanta saker med de här väldigt grova modellerna som ML handlar om. Men det finns helt andra paradigm inom artificiell intelligens, inom datorutveckling, där man skulle kunna nå väldigt intressanta resultat med mycket mindre datorer, mycket mindre datorkraft.
Till exempel olika typer av regelbaserade system, som de gamla Expertsystemen som det kallades, där man snarare jobbar med. med regler på någonting som man kan likna dem i en mer medveten nivå. Det finns också saker som till exempel genetisk programmering, där man skapar många olika versioner av program eller algoritmer som får konkurrera mot varandra utöver deras i en sorts evolutionär process.
Och det resulterar också till någonting som är, det är kanske lite grann mellanväg mellan de här approacherna, men det finns flera paradigm av den här typen. Men det vi jobbar med just nu, det här ML-paradigmet, Någonting som på många sätt är väldigt grovt. Och för att vi ska komma till mer sofistikerade applikationer så tror jag att det som framförallt kommer att vara jag tror inte att man kommer att se ML som en återvändsgränd framöver men min magkänsla är att Det är framförallt andra paradigmer som kommer leda till de riktigt stora genombrotten framöver.
Och man kommer se det här ML-paradigmet som en ganska primitiv mellanfas innan man lyckades skapa mer seriösa, rigorösa AI-system.
Boris
Martin
Boris
Jag ska kolla vad som finns där så ska jag på det. Jag är väldigt nyfiken på det. Så får man bättre grepp på det. Precis som man tittar på det som vid Jöni har producerats. Man måste se det framför sig. Så ska man nöjeläsa några stycken. Det är kanske fantastiska verk som ingen har uppmärksammat ordentligt. Det ska bli spännande.