Dein Podcast über Videokommunikation 4.0
Florian Gypser: Georg Neumann ist Grafikdesigner und Dozent, Mitgründer des... Nein, noch mal. Georg Neumann ist Grafikdesigner, Dozent und Mitgründer des... Was ist denn heute los? Georg Neumann ist Grafikdesigner, Dozent und Mitgründer des KI Marketing Bootcamps. Er zeigt, wie man KI nicht nur für schicke Bilder, sondern auch für Videos einsetzt, die wirklich etwas hermachen. Mit über zehn Jahren Erfahrung im Kommunikationsdesign und einem Händchen für smarte Tools bringt der frischen Wind in den Marketingalltag, ganz ohne Fachchinesisch, aber mit jeder Menge Praxis und Begeisterung für das, was KI schon heute möglich macht. Wir sprechen heute darüber, wie KI-basierte Videos die Unternehmenskommunikation verändern, wann synthetischer Content überzeugt, wann echte Menschen unersetzlich sind und welche Entwicklungen uns in den nächsten Monaten bevorstehen. Grüß dich, Georg! Schön, dass du in meinem Podcast bist.
Georg Neumann: Hi, Servus, danke, dass ich da sein darf.
Florian Gypser: Ich wollte eigentlich die Anmoderation mit einem Schwank beginnen, den du wahrscheinlich noch nie gehört hast. Nämlich, dass deine Eltern sich wahrscheinlich gar nicht große Gedanken darüber gemacht haben, welchen Namen sie dir gegeben haben. Ich glaub, da haben wir schon in Berlin darüber gesprochen, dass du schon weißt, dass du einen Namensvetter hast, aber deine Eltern wahrscheinlich das gar nicht wussten. wie war das damals?
Georg Neumann: Mit Sicherheit haben sie dabei nicht an, glaube, Mikrofone waren es gedacht oder so, sondern ich weiß nicht, wie Georg zustande kam. Die Alternative war, glaube ich, Franz bei meiner Mutter. Die Falle ist dann doch auf Georg gefallen.
Florian Gypser: Ja, wo ich grad sagen ... Also Franzl, Nee, Georg klingt schon cooler. Zumal es ja auch in deiner und meiner Generation eigentlich kein Name ist, der weit verbreitet ist. Es eher schon in älteren Generationen. Was ich aber nicht schlimm finde, im Gegenteil. find das ziemlich cool, dass ältere Namen in den letzten Jahren, 20, 30 Jahren, wieder hervorgekommen sind.
Georg Neumann: Mhm, bin ich auch ganz zufrieden damit mit der Wahl.
Florian Gypser: Vielleicht für alle, jetzt denken, was redet, der gibt's da wieder für ein wirres Zeug. Also Georg Neumann ist jetzt nicht mit Alfred E. Neumann vom Mad Magazine verwandt. Georg Neumann ist der Pate der modernen Mikrofontechnik. Also zum Beispiel das Mikrofon, du vor deiner Nase hast, lieber Georg, das würde es ohne deinen Namensvetter, der allerdings schon seit vielen Jahren verstorben ist, nicht geben, weil Georg Neumann hat in den, glaub ich, 1930er-Jahren, hat er das Kondensator-Mikrofon entwickelt. Die meisten kennen auch ... Die erste Variante, ist die berühmte Flasche, die riesengroß war, Röhrenmikrofon, wo die Nazis leider alle ihre Reden drüber gehalten haben. Dadurch wurde das Mikrofon bekannt. Sieht aus wie eine große Flasche mit so kleinen Kopf oben drauf. Aber so richtig abgegangen ist es in den 50er-, 60er-Jahren, da die legendärsten Mikrofonen entwickelt worden. Heute immer noch state of the art. Ja, so viel zum kleinen Ausflug. Danke, du im Podcast so hast. Tschüss und bis zum nächsten Mal.
Georg Neumann: von mir her.
Florian Gypser: Nein, genau, nein, nein. Ich wollte dich jetzt nicht auf deinen Namen reduzieren. Aber bevor wir ... In unser Thema KI-Videos, das finde ich super spannend, weil du hast eine recht große Bandbreite in dem, was du da machst. Bevor wir da reingehen, möchten wir doch mal schauen, wer der Georg ist. Und da habe ich meine drei Einstiegsfragen, die ich jedem stelle. Bist du bereit? War alles detailliert abgesprochen? Du weißt ganz genau, worum es hier geht,
Georg Neumann: Yes, tschüss los. Vollgas! Ich hab keinen Platz in Schimmer.
Florian Gypser: Wie gesagt, da sind wir schon mal zwei. Also, gehen wir auch direkt richtig deep, wie man im Neudeutschen sagt, schön philosophisch. Stell dir vor, Tages, bei dir dauert es noch Ewigkeiten, kommt der Tag, wo du abberufen wirst und du schaust zurück auf dein Leben und denkst dir, cool, dass ich diese eine Fähigkeit, die eine Sache noch gelernt hab, die du jetzt noch nicht beherrschst. Was ist das, was du unbedingt noch bist, zum Ende deines Lebens können möchtest?
Georg Neumann: Boah. echt tief. Wenn man jetzt beim Neudeutschen bleibt, dann erwischt man mich jetzt off guard damit mit der Frage, was will ich unbedingt noch lernen? Ich tatsächlich noch Programmieren lernen. Ich arbeite zwar viel mit KI-Systemen, aber ich kann in keinster Weise vernünftig programmieren. Ich mache zwar irgendwas damit, aber ich verstehe nicht, was ich damit tue. Das wäre ein Skill, der mir noch fehlt. Ich will mal Stand-Up-Puddling probieren, aber das hilft uns nicht weiter.
Florian Gypser: Okay. ist nicht schlimm. Ich hatte schon Bogenschießen, von daher alles gut.
Georg Neumann: Okay. Bogenschießen hab ich schon mal gemacht, das war cool. Ähm, boah. Ne, muss ich jetzt leider passen. Fällt mir gerade spontan nichts Cooles ein. Ja.
Florian Gypser: Ja programmieren reicht doch. ich mein, hallo, das ist ja eine halbe Lebensaufgabe, wenn man es richtig machen will.
Georg Neumann: Vor allem jetzt im Zuge von KI, es eigentlich fast keinen Sinn mehr macht, das zu lernen, noch mal mehr spannend.
Florian Gypser: Ja, das stimmt allerdings. Ich war beim ... Oh Gott, jetzt die Namen wieder. Ah, beim ... Den kennst du doch auch. Der Rheini. Reinhold. Mit dem D-Slam. Kennst du die Event-Reihe? Vom Reinhold. Boah. Ich komm nicht drauf. Dem hab ich auch noch ein Podcast ausstehen. Das ist eine Veranstaltungsreihe über IT-Security und Programmierung und KI. Aber als ... Ja, wie so ein Poetry-Slam. Mit witzigem Unterton, aber das trotzdem ernst. Und da ist mir zum ersten Mal bewusst geworden bei einem Vortrag, man halt, das war No-Coding, genau darum ging es, No-Coding oder Low-Coding, Low-Coding heißt das andere, also mit wenig Code, dass man heute schon wahnsinnig viel machen kann, ohne richtig programmieren zu müssen.
Georg Neumann: Ja, da geht echt schon einiges. auch für Leute, Ahnungslose wie mich, einfach sich mal ausprobieren wollen, ist es extrem leicht zugänglich.
Florian Gypser: Ja, spannend. Dann Frage Nummer zwei. Kopf ganz weit auf, hoch kreativ. Es gibt keine Grenzen. Wie würdest du deinen Arbeitsplatz gestalten, wenn Geld keine Rolle spielen würde? Stell dir vor, gute Fehlkommensache. Du kannst jetzt den ganzen Tag machen, was du willst und vor allen Dingen auch wo und in dem Setting, was du dir wünscht. Was wäre dein absoluter Traum?
Georg Neumann: Also ich wäre schon mal wahrscheinlich irgendwo da, wo es weniger regnet und durchgängiger warm ist. Also ich habe keinen Bock mehr auf Winter. Das wäre schon mal das erste. Also wir würden uns wahrscheinlich Richtung Süden verlagern. Dann wäre das irgendwo so eine kleine Finca mit einem schönen Pool oder so. Aber ansonsten, ich würde schon wahrscheinlich weiterhin das tun, was ich tue, weil ich das liebe. Bloß ich hätte gerne ein bisschen wärmer dabei, ein bisschen mehr Freiheit, dass ich aber mal den Pool springen könnte. Solche Späße. Relativ unkreativ. Das, eigentlich viele machen, wenn sie irgendwo Vocation machen. Das wäre so auch mein kleines Trömmchen.
Florian Gypser: Ja, gut, messen einen prozentuellen Anteil der Menschen in der hiesigen Bevölkerung, die das dann wirklich machen, ist das schon ein exklusiver Wunsch. Muss man mal so sehen.
Georg Neumann: Ja. Du hast gesagt, alle Freiheiten. Dann müsste ich auch mein Kind mitschleppen, das irgendwann schulpflichtig wird und solche Späße. Dann wird's wieder interessant und das ist wahrscheinlich der Grund, warum es niemand durchzieht.
Florian Gypser: Ja, aber geht auch. Ich hab jetzt gerade einen Kontakt, auch Neukunden, der genau das machen möchte. Seine Tochter ist jetzt gerade ... Ich glaub, die in die Schule gekommen jetzt. weiß gar nicht, ob weiterführende oder Grundschule. Ich glaub, Grundschule. ist genau das Thema aufgeploppt. Jetzt haben sie gesagt, das erste Jahr machen sie in Deutschland. Dann gucken sie nächstes Jahr, ob sie dann auf eine internationale Schule ... Die wollen runter nach Marbella. Also zeitweise, nicht dauerhaft. Ob die da dann auf einer internationalen Schule einfach weiter unterrichtet wird. Also Lösung. Lösung gibt es immer. So, last but not least. Welcher bekannten Persönlichkeit wärst du gerne begegnen oder würdest du gerne noch begegnen und was wäre euer Gesprächsthema?
Georg Neumann: Ja, spannend. Ich habe kein Namensgedächtnis. Aber ich würde gerne mal mit Jimi Hendrix über Musik philosophieren, aber die Chance gibt es leider nicht mehr. ⁓
Florian Gypser: Ja, aber es war ja hypothetisch. Also muss ja nicht eine lebende Person sein, von daher.
Georg Neumann: Ja, genau, das wäre ein so ein Wunsch. Ich würde gerne mich mal mit dem Björn Omer austauschen, dem Erfinder quasi der modernen Bild-KI, der quasi den Latent Diffusion Modellprozess entwickelt hat an der LMU München, weil ohne den hätte ich jetzt diesen coolen Job nicht, ich gerade habe. Und das ist auch so bisschen so ein Underdog. Der ist eigentlich voll der KI-Superstar, aber der läuft komplett unter dem Radar. Also mit dem würde ich mich gerne mal unterhalten. Das ist nicht mal so unrealistisch. wenn ihr mal, falls ihr zuhört, bitte melden. Genau, die zwei, das würde mir jetzt spontan einfallen.
Florian Gypser: Ja, Jimi Hendrix wäre ich dabei sogar. Ich bin ja von Haus aus Gitarrist und Bassist und jetzt nicht mehr so großer Jimi Hendrix-Fan, aber klar, meiner wilden Teenagerzeit, wo man die ganzen Gitarrengrößen durchgemacht hat, Hendrix ist Pflicht. Hendrix ist Pflicht, so wie Clapton God ist. von daher ... Ja, lass uns mal über karakteriegenerierte Videos sprechen.
Georg Neumann: Ja, absolut.
Florian Gypser: Jeder, meinen Podcast kennt, ich hab jetzt nicht einen großen Fragenkatalog. Wobei ich schon ein paar Fragen habe, das heißt nicht, dass ich die alle stelle, sondern einfach nur, ein bisschen einen roten Fahnen vielleicht zu kriegen, wenn uns mal das Thema ausgeht, was ich aber nicht glaube. Ich find super spannend, was du machst. Beschreib's mal in kurzen Worten für diejenigen, die dich noch nicht kennen, was so dein tägliches Brötchenverdien bedeutet.
Georg Neumann: Ja, also ich komme eigentlich aus der klassischen Medienbranche. Das heißt, ich bin über die Fotografie zum Grafikdesign gekommen, vom Grafikdesign in Anstellungsverhältnis, vom Anstellungsverhältnis irgendwann in meiner eigene Agentur. Das habe ich auch jahrelang gemacht, bis halt dann KI kam und das hat mich wirklich nicht mehr losgelassen. Ich bin sehr frühzeitig reingegangen, nämlich schon 2022 noch bevor es JetGPT und Co gab, habe ich schon meine ersten KI Modelle trainiert. wirklich Bild-KI-Modelle trainiert, ⁓ Leute zu replizieren und solche Späße. Und das hat mich nicht mehr losgelassen, habe dann auch gleich das KI Marketing Bootcamp gegründet. Damit waren wir der erste Schulungsanbieter, sage ich mal, in Deutschland, der das dediziert für Marketing und Design gemacht hat, angeboten hat. quasi damit ich Leute innerhalb meines Tätigkeitsfeldes quasi ausbilden kann, weil ich habe damals schon erkannt, das wird unsere Branche komplett über den Haufen werfen, was es ja auch tut. Und da wollte ich auch unterstützend dabei sein, diese
Florian Gypser: Mhm. Mhm.
Georg Neumann: Revolution ist ein blödes Wort, aber es ist trotzdem irgendwie auch eine Evolution dieses Berufsfeldes mit begleiten zu dürfen, mit steuern zu können und ein bisschen auch zu helfen. Und in meiner täglichen Arbeit jetzt schule ich halt Marketing Abteilungen, Agenturen, Werbeagenturen, Designagenturen im Umgang mit generativer KI. Mit meiner Kollegin zusammen, die Froni, die übernimmt ein paar Sprachmodelle. Ich mache alles im kreativen Bereich, das heißt Bildgenerierung, Videogenerierung und so weiter. Aber natürlich habe ich auch nebenbei noch meine Agentur. und macht da auch ganz viel mit KI-Projektarbeiten. Wir erstellen auch Videos, Bilder, Serien, Workflow, Entwicklung, alles Mögliche. Genau.
Florian Gypser: Mhm. Ja, spannend. Vor allen Dingen spannend, weil es bisschen Parallelen zu meiner Tätigkeit gibt, weil ich mich oder wir uns, meine Frau und ich, die wir die zwei übrig geblieben sind, sag mal so, von unserer Agentur, durch Corona, wir konzentrieren uns vor allen Dingen ich halt auf das Thema Videokommunikation, auch durch Befähigung und Schulung. Weil wir einfach schon vor Jahren gemerkt haben, wir hatten ja selber 16 Jahre lang eine Trainingsfirma überhaupt für so Themen. Aber wir haben gemerkt, im letzten Jahr ist da doch ein krasser Wandel, da stattfindet, durch die immer größere Anzahl an Videos, die genutzt werden und auch genutzt werden sollten in Zukunft. Und da ist es halt ganz spannend. Die Frage kommt immer wieder. Ich hatte das jetzt gestern auch mit einem, ja, im Rahmen eines Neukundengesprächs, wo der Kunde sagte, na ja, wir fragen uns gerade, ob wir die Investition tätigen sollen, halt in einem Studio bei uns im Unternehmen. in die ganze Schulung, die ganze Nachbetreuung mit Ihnen. Weil eigentlich könnten wir doch das Ganze auch mit KI machen. Sei es jetzt mit Avataren oder überhaupt mit anderen Methoden. Können wir doch letzten Endes unsere internen Schulungen, Kundenkontakt, Produktvideos, das können wir doch alles bald irgendwie künstlich erzeugen lassen. Was würdest du da entgegnen?
Georg Neumann: Wenn das jemand sagt, dann versteht er den Aufwand hinter guten KI Videos noch nicht. die Wahrnehmung ist halt oft die, dass das dann ultra easy ist, weil mit KI geht das ja alles ganz einfach. Geht es theoretisch auch, also man kann relativ unkompliziert KI Videos erstellen, aber dann ist man halt auch ganz, ganz schnell im sogenannten Uncanny Valley und hat halt Effekte, die man gar nicht mal so will für seine Marke. Also einfach wenn KI Videos schlecht produziert sind, dann wirken die auf die
Florian Gypser: Mhm.
Georg Neumann: Zuschauer auch zunehmend negativ, weil sie dann unheimlich wirken. Also das ist dieses Uncanny Valley. Uncanny heißt im Prinzip unheimlich übersetzt. Das heißt, solche schlechten KI-Avatare sind eher negativ für den Markenaufbau und für die Wahrnehmung dieses Unternehmens. Von daher muss man dann schon tierisch aufpassen. Wenn man die KI-Route gehen will, dann muss man da schon wirklich ordentlich Zeit und Budget reinstecken, das richtig zu machen.
Florian Gypser: Das heißt mal eben einem Kunden irgendwie ein Angebot erklären mit der KI oder Produktanwendungen mit einem KI generierten Video. ist grundsätzlich Unsinn oder ist einfach nur Zukunftsmusik.
Georg Neumann: Man kann es jetzt schon machen. Es gibt natürlich Use Cases, wo es jetzt schon Sinn macht. Ich muss nicht zwangsläufig in einem B2C-Umfeld zum Beispiel ein Feature einer Software zwangsläufig mit einem echten Menschen erklären. Da könnte man schon drüber nachdenken, einen Avatar zum Beispiel zu nutzen und den einfach über eine Präsentation oder über eine Bildschirmeaufnahme einzublenden, wenn es da wirklich bloß trockene Erklärungen geht oder so was. Aber sobald man halt was verkaufen will, würde ich es vielleicht noch vermeiden. oder halt dann hybride Ansätze wählen, dass man nur teilweise KI nutzt und teilweise echte Menschen und so weiter. Also das ist immer noch stark use case abhängig.
Florian Gypser: Mhm. Ja, mein Argument ist halt immer die Zeit auch letzten Endes, weil wenn du einen effizienten Produktionsprozess hast, ist das, was wir hier aufsetzen, dann brauchst du für ein fünfminütiges Video zehn Minuten, fünf Minuten, du startbereit bist, und dann sprichst du einfach runter, was du sagen möchtest. Und gerade in vielen alltäglichen Szenarien, sei es jetzt mit Videobotschaften oder haben wir auch häufig das in Unternehmen ansprachen von der Geschäftsleitung oder so, an die Belegschaft aufgenommen werden. Da brauchst du keinen gigantischen Vorbereitungsaufwand im Vorfeld. Da bist du viel schneller. Ein anderer Punkt, was bei Videokommunikation der Vorteil ist, ist die Authentizität und der Vertrauensaufbau. Was meinst du ... Ich hab schon mal mit jemandem Podcast aufgenommen, der sich nur auf KI-Avatar spezialisiert hat. Der meinte, und das seh ich persönlich auch so, First-Level-Support, also die erste Anlaufstelle in gewissen Bereichen ist in KI-Avatar interessant, gerade wegen der Mehrsprachigkeit. Dann hört es aber auch abrupt auf, weil sobald Vertrauen aufgebaut werden soll, sollte man es tunlich unterlassen.
Georg Neumann: Ja, sehe ich eigentlich genauso. Also wie gesagt, das was ich gerade meinte, das ist stark use case abhängig, aber gerade sowas wie First Level Support kann gerne ein Chatbot oder ein interaktiver Avatar oder sonst was sein. Aber danach, wenn es ans Eingemachte geht, unbedingt mit Authentizität entsprechend agieren und halt wirklich mit echten Menschen.
Florian Gypser: Aber natürlich kann man sich vorstellen, dass die Entwicklung in nächsten Jahren gewaltig voranschreitet. Glaubst du, dass das eines Tages auch obsolet wird? Ich kann es mir nicht vorstellen, aber ...
Georg Neumann: Sagen wir mal so, die Entwicklung geht halt Schritt für Schritt immer weiter. Das heißt, irgendwann wird man es vielleicht gar nicht mehr erkennen, dass man jetzt einen KI-Avatar vor sich hat. Das kann durchaus bald der Fall sein, weil im Moment ist halt noch die große Lücke, dass quasi Audio und Video eigentlich im Prinzip separat voneinander generiert werden. Und auch, gesagt, die Videospur versteht nicht die Intention der Audiospur. Das heißt, so was wie Mimik und Gestik ist komplett voneinander entkoppelt in vielen Fällen noch. Das wird aber schon Schritt für Schritt besser. Heygen hat jetzt erst wieder eine neue Version rausgebracht, wo sie das schon mehr miteinander koppeln, wo man tatsächlich auch schon Emotionen oder Intonationen prompten kann. Und das wird in Zukunft halt vielmehr automatisiert werden, dass wirklich die Systeme auch die Intention und die die Wichtigkeit von manchen Stellen im Text besser verstehen und so weiter und so fort. Und dann wird's plötzlich auf dem sind wir irgendwann auf einem Level, wo du das vielleicht gar nicht mehr von einem echten Video unterscheiden kannst.
Florian Gypser: Mhm.
Georg Neumann: Und dann steigt natürlich die Zahl der Use Cases, wo das noch gangbar ist.
Florian Gypser: Mhm. Wie sieht denn da jetzt so deine aktuelle Situation, die Use Cases aus, die meisten sind Unternehmen genutzt werden? Also, meine Zielgruppe ist ja B2B, B2C ist sicherlich noch was anderes. Was würdest du sagen, sind typische Anwendungsfälle, mit denen du zu tun hast, wo Unternehmen auf KI-generierte Videos setzen?
Georg Neumann: Also bei Richtung fiktive Avatare oder auch echte Avatare, dann zum Beispiel viel bei internen Onboardinggeschichten, internen Erklärvideos wird es gerne genutzt, auch wegen dem Thema Mehrsprachigkeit. Weil eine trockene Datenschutzerklärung, Geschichte, Schulung, die kann jetzt auch ein KI-Avatar übernehmen, das ist vollkommen egal, ob das jetzt ein echter Mensch vorliest oder ein KI-Avatar, so nach dem Motto. Also viel bei internen Geschichten tatsächlich. Da wird es gerne genutzt und auch nicht unbedingt negativ wahrgenommen von der Belegschaft. Da gibt es jetzt auch schon erste Erfahrungswerte, die so langsam reinploppen. Zwar noch nicht wissenschaftlich gemessen ist, aber das, ich jetzt so an Feedback bekomme, ist durchweg eigentlich relativ positiv. Gerade für so trockene Geschichten. Bei Mitarbeiter-Onboarding hatte ich einen Kunden, der das da getestet hat, aber da haben sie schnell einen Rückzieher gemacht, weil da ist natürlich das Menschliche schon wieder ein anderes Thema. Ansonsten halt im Co-Support werden super Erfahrungen gemacht. Und da ploppen ja auch gerade immer mehr diese interaktiven Video-Avatare tatsächlich auf. Die Technik ist langsam so weit, dass sie eingeführt werden kann. Das heißt, man hat im Kundensupport sogar einen Video-Avatar, der einem live in Video-Form antwortet, statt nur in einen reinen Chatbot zum Beispiel. Und das ist natürlich für die Unternehmen extrem wertvoll. weil damit wird auch noch mal anders umgegangen als mit einem normalen Chatbot. Das heißt, die Daten, die man daraus ziehen kann, sind natürlich auch das Wertvolle dann am Ende, weil die kann man natürlich perfekt auswerten. Ansonsten im Marketing werden natürlich immer mehr Videos produziert, jetzt weniger im Avatar-Geschäft, sondern im Bereich UGC, also User Generated Content, wobei ich da kein großer Fan davon bin, weil das effektiv alles als Die Pfecks eigentlich kennzeichnungspflichtig werden. Das wird im Moment noch bisschen unter den Tisch gekehrt. Aber da muss man natürlich tierisch aufpassen, auch wieder Richtung Authentizität und so weiter, dass man da seine Marke nicht untergräbt sozusagen.
Florian Gypser: Beispielsweise was? Also welcher Form?
Georg Neumann: Ja, was einem auf Instagram und TikTok gerne mal begegnet sind solche typischen für Kosmetik Artikel, irgendwelche Damen, die die dann präsentieren und davon schwärmen. Da gibt es schon extrem viele, welche die komplett zu 100 Prozent KI generiert sind. Ja, und das ist aus meiner Sicht halt einfach schlichtweg auch Täuschung. Ist natürlich aber die Frage ethischer Natur. Könnte man diskutieren, ob jetzt gekaufte Influencer, die drüber schwärmen, nicht genau das Gleiche sind? Das ist natürlich auch täuschend. Aber es ist natürlich eine Frage, wie man damit umgehen will. Aber ja.
Florian Gypser: Ja, und dann noch Instagram und Kosmetikbranche ist ja auch noch eine Spezialität für sich. meine, das ist ja eine Scheinwelt. Wenn gleich auch viele gerade Jüngere natürlich darauf reinfallen, würdest du sagen, gibt oder welche Bereiche deiner Erfahrung nach, würdest du sagen, sollte man auf keinen Fall mit KI-Videos angehen, weil man sich sofort irgendwie die Finger verbrennt? Also in der Außenwirkung jetzt nicht vom Aufwand her das ist anderes Thema.
Georg Neumann: Ja, man hat es ganz gut gesehen. Zum Beispiel war letztes Jahr ein kleiner Shitstorm rund diese Emma für den Deutschen Tourismusverband. Das lag aber tatsächlich eher an der Qualität der Ausführung. Ich glaube noch nicht mal, es, wenn es richtig gut von der Qualität gewesen wäre, dann hätte das sogar funktionieren können. Das war damals eher ein Shitstorm, weil es halt technisch ein bisschen hinterher war. War trotzdem ein mutiger Ansatz. Deswegen da Chapeau auf jeden Fall, dass sie das versucht haben.
Florian Gypser: ⁓ ja.
Georg Neumann: Ich habe letztens mal wieder auf den Instagram geschaut, der performt auch ganz gut, soweit ich das sehen kann, bloß halt nicht in Videoform. Die haben sich halt dann zurückgerudert auf Bilder, was scheinbar dann eher funktioniert, weil beim Video ist man dann halt ganz schnell wieder in diesem Uncanny Valley, was dann eher negativ wahrgenommen wird. Das sieht man immer wieder, wenn das Leute versuchen, dass sie da eher auf die Schnauze fallen im Moment noch. Aber es liegt einfach schlichtweg noch an der Qualität. Also in Zukunft werden einfach die Themen zunehmen, wo man das wagen kann, wenn auch die Qualität besser wird.
Florian Gypser: Was mir jetzt dauernd begegnet, wenn ich bei YouTube mal durch die Shorts durchgehe, sind diese unsäglichen, pseudolustigen Miniclips, irgendwelche Rentner, sich irgendwelche schmutzigen Witze erzählen oder weiß, was ich meine. Kennste alles so. Völlig emotionslos, also gruselig. Aber auch das ist ja nur eine Frage der Zeit, es besser ist.
Georg Neumann: Ja, Babypodcast. Ja, ja. Und das performt aber tatsächlich auch extrem gut auf Social Media. Also da gibt es auch wieder regelmäßig irgendwelche Pseudo Podcasts mit Trump und Elon Musk oder irgendwelche Babys, in den effektiven Podcast halten und so weiter. Das entsteht halt immer aus Spaß, irgendwelchen Tech Demos. Und dann wird es halt tatsächlich gut geklickt. Und dann gibt es die ersten Hainis, die das dann halt voll automatisieren und das Internet mit solchen Clips fluten. Das ist immer so ein Zyklus. Wenn eine neue Technik rauskommt, wird die gleich ausgeschlachtet für sowas. und wird dann wirklich voll automatisiert. es gibt dann wirklich N8N Templates, die das komplett automatisiert ausgeben und auf YouTube hochladen und dann wirklich das Internet damit zuspämen. Das ist halt gerade so eine Entwicklung. Google steuert zum Glück schon ein bisschen dagegen bei YouTube, dass solche Videos auch nicht mehr monetarisiert werden können. Sobald VoiceOver zum Beispiel drüber liegt, wird das erkannt bei Google und dann wird das zum Beispiel schon nicht mehr monetarisiert. Das ist schon mal ein erster Schritt in die richtige Richtung. da müssen wir jetzt einfach beobachten. ist gerade eine riesige Spielwiese, riesiger Wildwesten, was da gerade passiert.
Florian Gypser: Eine neue Grauzone kann man auch sagen, so wie das Internet vor 25 Jahren, als ich damit angefangen hab. Da gab's noch nichts mit DSGVO und Kaltakquiseverbot und so Sachen. war echt wilder Westen damals. Konnte man noch viel reißen.
Georg Neumann: Exakt. Ja, fühlt sich ein bisschen, ja, fühlt sich wieder ein bisschen so an, genau.
Florian Gypser: Ich hab mich mal bisschen damit beschäftigt. jetzt nicht wahnsinnig viel, ich ehrlich sagen. Weil Realvideos ist ja mein Thema. Wobei ich ja vom Ursprung vom Ton auch komme. Ich hab das als Spaß letztes Jahr gemacht. Nachher dachte ich mir, vielleicht war's bisschen peinlich, aber es ist mir egal gewesen zu Weihnachten. Hab ich mir den Spaß gemacht und hab eine Weihnachtsgeschichte mit Checi Petit geschrieben. Die war auch richtig doof. Das war auch so das Ziel. Hab die dann aufgenommen als Podcast und dachte mir, machst du aber richtig blöd. Und hab mir, ähm ... Ich glaub, bei Envato ein Bild von einem Weihnachtsmann so richtig kitschig, also auch KI generiert. Ähm ... Nee, Quatsch, ich hab mir eins generieren lassen von Chatchipity. Und wollte dann ein Video draus machen. Ich weiß nicht mehr, welche Plattform ich genommen hab. War eine von den bekannteren, entsprechend auch Credits gekauft. Und es war extrem mühsam, diese zehnminütige Geschichte. Der saß nur im Buch vor der Nase, vom Kamin, alles schön kitschig. Wie man sich vorstellt, sollte nur bisschen den bewegen und halbwegs den Mund bewegen. Es war extrem mühsam, sah auch ziemlich kacke aus. Da bin ich dran verzweifelt, weil ich überlese, es ist total einfach hier, Text to Speech und so. Wobei, Speech war ja schon da, es war hier andersrum. Ist das immer noch so aufwendig, oder wie muss ich mir so einen Workflow für so was vorstellen?
Georg Neumann: Ja, da gibt es gerade Punkt aktuell spannende Entwicklungen, weil tatsächlich früher waren lange Sequenzen mit Lippensynchronisierung und so weiter. Vor dem halben Jahr war das noch ein Alptraum. Da bist du halt voll reingelaufen in diese Zeit, wo das noch echt schwierig war. Das war damals halt noch ein Edge Case. Mittlerweile gibt es da echt spannende Entwicklungen. Zum Beispiel gibt es gerade ein neues Modell von ein KI Modell von Microsoft nennt sich Infinity Talk. Und damit kann man wirklich bis zu 90 Minuten lang. Videos generieren, wo du quasi bloß eine Audiospur rein gibst. Du gibst ein Startbild rein, zum Beispiel dann von deinem Weihnachtsmann. Und dann kann der da bis zu 90 Minuten runterquatschen. Und das geht mittlerweile sogar auch mit mehreren Sprechern. Das heißt, kann sogar dann das andere Modell dazu heißt Multitalk. Da kann man bis zu vier Sprecher zum Beispiel kombinieren in einem 90-minütigen Podcast zum Beispiel. Also könntest du den Weihnachtsmann mit anderen Schwarzenegger und Albert Einstein diskutieren lassen. Bis zu 90 Minuten im Moment. Und das funktioniert relativ gut. Steckt halt noch extrem viel Rechenzeit dahinter. Aber da geht schon echt einiges. Die Lippensynchronisierung ist noch nicht ganz perfekt, aber wir sind schon deutlich, deutlich weiter als noch vor einem halben Jahr. Da passiert gerade extrem viel. Und lustigerweise hat Microsoft heute dieses Modell wieder offline genommen. Also das war quasi Open Source, stand das sogar zur Verfügung. Also jeder konnte das runterladen, konnte damit machen, was er wollte. Und jetzt hat Microsoft scheinbar bemerkt, dass das wohl sehr gut war und sehr gut ankam. Und haben sie sich überlegt, wahrscheinlich damit müsste sich doch Geld verdienen lassen. Und jetzt ist es wieder offline. Jetzt ist es leider wieder offline. Ich habe es zum Glück noch gespeichert. Das heißt, es läuft noch unter einer Open Source Lizenz auf meinem Rechner. Und so wird es viel weltweit gehen. Also hoffentlich kommt es wieder online. Ich weiß es nicht. Aber da gibt es bestimmt auch bald wieder aus China eine Alternative.
Florian Gypser: Ja klar! Aber ab... Aber wo du gerade sagst, läuft auf meinem Rechner, ich kenne bisher solche Dinge ja nur, irgendwo bei Chatch.GPT oder Gemini oder wie sie auch alle heißen, als ein Modell mit integriert sind. Wie lasse ich sowas denn auf meinem eigenen Rechner laufen? Insbesondere, wie viel Leistung brauche ich da?
Georg Neumann: Du brauchst zum einen mal bisschen technische Frusttoleranz, weil das alles nicht sehr einfach ist, das zum Laufen zu kriegen und dann braucht man natürlich schon ein bisschen Hardwareleistung. Gerade für die Videogenerierung braucht man schon sehr, sehr viel Hardwareleistung. Das heißt, du brauchst hauptsächlich eine Grafikkarte mit viel, Videospiecher. Das fängt erst an Spaß zu machen ab 24 GB Videospiecher. Die Grafikkarten dafür kosten im Moment, wenn man jetzt eine neue kaufen wollte, so ab, ich sag mal, 2500 Euro nur für die Grafikkarte. Der restliche Rechner ist dann relativ nebensächlich. Es geht wirklich rein die Grafikkarte hauptsächlich. Und dann kann man da schon ein bisschen was machen. Dann muss man halt diese ganzen Open Source Software installieren, die Modelle runterladen und dann kann man das alles lustig kombinieren. Aber wie gesagt, man braucht sehr viel technische Frusttoleranz, das zum Laufen zu kriegen im Moment noch. Es gibt aber natürlich als Alternative Web Apps, wo sowas dann fertig schon für einen installiert und vorgekaut ist.
Florian Gypser: Mhm. Sodass es auch jeder nutzen kann. Mir fällt gerade so ein News-Case ein. Da hatten wir auch schon mal darüber gesprochen, als wir uns Berlin getroffen hatten auf der Campix. Meine Frau ist ja Bereich Kindermarketing tätig. Die macht ja Musik für Kindermarketing, Hörspiele. Also ... Brandhörspiele, man sagen. Unternehmen. Und da gab's schon mal ... vor einigen Jahren gab's da schon mal die Idee, ach, man könnte doch irgendwie ... Zum Beispiel zu einem Maskottchen oder Titelsong könnte man ein kleines Video animieren. Und vor vier Jahren war das natürlich noch abartig aufwendig. Da musste jemand das zeichnen, muss animiert werden. Absoluter Wahnsinn, selbst in 2D. Wie aufwendig ist das heute? Also natürlich ist mir klar, dass wenn du verschiedene Szenen haben willst, du musst verschiedene Zeichnungen oder Grundbilder oder Comic-Style-Bilder generieren. Aber kann man das wirklich so machen, dass man das basierend auf dem Songtext sich vielleicht Anweisungen erzeugen lässt von der KI? Oder wie wäre die Vorgehensweise? Einfach ganz grob.
Georg Neumann: Ja, also wenn man jetzt mal ein fertiges Maskottchen hat, das nehmen wir jetzt mal mal an, dass es das schon fertig design gibt. Könnte man natürlich aber auch mit KI lösen, das Design dieses Maskottchens. Aber mal angenommen, das gibt es schon. Dann müssten wir zunächst mal schauen, ob es auch schon einen Song gibt. Wenn ja, machen wir das basierend auf dem. Und dann können wir natürlich mit Hilfe von ChedjipiT mal anfangen, ein Storybook quasi dafür zu entwickeln. Mir fällt gerade das richtige Wort nicht ein. Ich habe gerade Wortfindungsstörungen.
Florian Gypser: Sorry, Bot.
Georg Neumann: Storyboard, danke, ich habe jetzt Storybook gesagt. Ein Storyboard zu entwickeln entsprechend dafür, wo wir mal die Szenen grob vorkonzipieren. Je nachdem wie lang der Song halt ist. nehme jetzt mal an, Kindersong irgendwie so die zwei Minuten. Das heißt, wir brauchen da schon einige Szenen dafür. Und im Moment haben wir die technische Herausforderung bzw. Limitierung, dass sich Clips meistens bloß so in der Grenze von fünf bis zehn Sekunden generieren lassen, ganz gut. Und da muss man halt schlau ein bisschen drum rum planen mit vielen Kats und so weiter. Oder mit ein paar Tricks arbeiten, halt die Länge ein bisschen rauszuzögern oder zu verlängern, was auch geht. Aber man sollte das, wenn man da in die Planung geht im Hinterkopf haben, dass wir im Moment so auf fünf bis zehn Sekunden limitiert sind pro Szene zum Beispiel. So, dann haben wir die Konzepte des Storyboard erstellt. Das heißt, wir wissen auch, was wir an Startbildern brauchen für diese einzelnen Sequenzen. Und die können wir dann mit Hilfe von Bild-KI generieren. Also das Vorgehen ist im Moment so, im Optimalfall gebe ich dem System ein Startbild, also quasi den ersten Frame dieses Videos vor und mit dem Prompt wird es dann animiert entsprechend. Das heißt, man muss dann Kamerabewegung, Bewegung des Subjekts und so weiter, des Maskottchens berücksichtigen schon im Prompt und dann kriegt man da ein Video raus. Das erste wird wahrscheinlich noch nicht funktionieren. Da muss man sich so bisschen rantasten und dann irgendwann hat man dann vielleicht den ersten Clip. Und dann geht es halt so weiter. Also es ist schon noch ein gutes Eckaufwand, aber natürlich bei weitem weniger als jetzt hier ein 3D Rendering für ein Musikvideo zu generieren, für ein ganzes Musikvideo. Also da liegen wir im Bereich von, keine Ahnung, 10.000 Euro wahrscheinlich, wenn man das noch klassisch produzieren würde. Wenn immer...
Florian Gypser: Hm. wenn du damit hinkommst. Also ich mein damals äh, war es... 50.000 80.000 Euro waren die Preise, die so aufgerufen wurden. Also das ist schon heftig.
Georg Neumann: Ja, also wenn man jetzt was wirklich Hochwertiges mit KI produzieren will, wo man wirklich dann wirklich auch noch auf Details achten kann, wenn es das Budget hergibt, quasi, würde ich behaupten, dass du sowas mittlerweile für, ich sag mal, 8 bis 20.000 Euro gut hinbekommst, dass du da wirklich was Hochwertiges hast mit KI und Unterstützung. Also ein gutes Eck weniger als noch mit klassischen Methoden.
Florian Gypser: Hm. Dann ist ja nur eine Frage der Entwicklung bis bis die KI, sagen wir, selber Prompt-Vorschläge macht, die so verwendbar sind, dass es nicht in jedem Clip anders aussieht. Weil das ist ... Ich bin nicht tief drin im Thema Bildgenerierung, das meiste, was ich gemacht hab, war so Späße, die jetzt über LinkedIn rausgingen. Der Klassiker, diese Actionfigur, war beim ersten Mal sehen total cool nach einer Woche. Weil's ja jeder gemacht hat. war so ein Altbacken oder die Knetmännchen. Ich hab mal irgendwie mit meinem besten Freund mein Foto genommen und hab gesagt, so jetzt mal so im Pixar-Style, lass uns mal hier irgendwie am Lager, das war total witzig am Anfang, aber das Ätzende war halt immer, jedes Bild sah anders aus. Auch wenn ich gesagt hab, lass alles exakt so wie es ist, jedes Bild sah anders aus. Hat sich da was geändert oder ist das wirklich immer noch so, dass man sehr viel Ahnung davon hat, wie man das promptet?
Georg Neumann: wird mit jeder neuen Entwicklung Stufe wird es ein Stück leichter und leichter zugänglich. Jetzt gerade Punkt aktuell ist wieder eine neue Entwicklung rausgekommen von Google diesmal, nämlich Googles Nano Banana ist der quasi der Arbeitstitel. Eigentlich heißt es Google Flash 2.5 Experimental oder so, aber jeder nennt es halt Google Nano Banana, weil es so im Internet das erste Mal aufgetaucht ist. Und das ermöglicht jetzt halt eine relativ leichte.
Florian Gypser: Hm?
Georg Neumann: Kontext bezogene Bildbearbeitung auch zum Beispiel oder auch generell die Kontext bezogene Bildgenerierung und das sehr sehr gut. Was ich da mein mein ist, du gibst ihm jetzt zum Beispiel immer als Startbild ein Portraitbild von dir, ein relativ neutrales zum Beispiel und dann lässt du das einfach in verschiedenen Szenen machen, erst am Lagerfeuer, dann beim Surfen, dann erzählst du wieder eine Weihnachtsgeschichte im Weihnachtskostüm und so weiter und darüber kriegst du jetzt auch schon wirklich eine gute Konsistenz her. Und du könntest noch einen Schritt weitergehen, dann gibst du ihm als zweites Referenzbild zum Beispiel noch eine Stilreferenz, irgendeinen Illustrationsstil zum Beispiel. Und plötzlich kannst du alle Bilder in der Serie in diesem Illustrationsstil aber mit dir als Referenz zusätzlich reingeben und bekommst wirklich eine konsistente Bildserie raus. Und das ist mittlerweile echt leicht zugänglich. Und auch eine Bildbearbeitung zum Beispiel hat FreePick zum Beispiel hat jetzt ganz frisch integriert. Früher musste man noch
Florian Gypser: Okay.
Georg Neumann: entweder im Photoshop Sachen dann raus retuschieren aus KI generierten Bildern, wenn die einfach schlichtweg falsch waren. Dann die nächste Evolutionsstufe war halt dann das sogenannte Inpainting, dass man im Bild eine Stelle ausgemalt hat, die man Ende wollte. Die wurde dann neu generiert. Mit Glück war es dann vielleicht gut generiert. Man musste da meistens viele Iterationen machen, bis es geklappt hat. Und die neueste Entwicklungsstufe ist einfach, man klickt im Bild auf die Stelle, die man ändern will und beschreibt, was man dort ändern will. Das ist der aktuelle Stand der Technik.
Florian Gypser: Mhm.
Georg Neumann: geht auch mit Unterstützung von Googles Nano Banana. langsam kommen wir auf ein Niveau, wo das auch, blöd gesagt, meine Mutter machen könnte.
Florian Gypser: Okay, ich hab mich lange nicht damit beschäftigt. weiß, als Ken war das rausgebracht, ganz groß angekündigt, AI, Picture Generation und so weiter und so fort. Dachte ich mir, das ist ja ganz praktisch. Ich hab jetzt ein festes Setting an Fotos von mir, für meine Postings. Hab's bis heute nicht hingekriegt, mit unserer Fotografen Karina noch mal paar neue zu machen. Ist völlig überfällig. Ich dachte, Mensch, dann kann ich das ja nehmen. Wenn das Bild hochkant ist und ich brauch noch Fläche vom Hintergrund, erweitere mal das Bild. Das Ergebnis war eine Katastrophe, selbst einen grauen Hintergrund. Aber wenn ich beschrieben hab, möchte, dass du das Bild die doppelte Breite nur mit dem grauen Hintergrund erweiterst, dann waren da komisch generierten Bücherregale plötzlich völlig unbrauchbar. Ich gespannt, ich hab mich lange nicht damit beschäftigt, ob sie das auch abgedeckt haben mit Sicherheit. Das gibt völlig neue Möglichkeiten.
Georg Neumann: Absolut.
Florian Gypser: Auch zum Faken.
Georg Neumann: Das ist die Kehrseite.
Florian Gypser: Das ist nämlich genau der Punkt. Auch eine Frage, die ich mir notiert hatte, nämlich, was glaubst du, ob es jemals der Fall ist oder vielleicht auch wann es der Fall ist, dass KI wirklich absolut überzeugend, also glaubwürdige, synthetisch erzeugte Videos hervorbringt. Weil, was ich jetzt von vielen, die sich mit den Themen grundsätzlich beschäftigen, höre, ist, KI generiert keine zufälligen Fehler. Das ist alles zu glatt und zu perfekt. und mimik und gestik sind auch noch sehr hölzern, glaubst du, dass es eines Tages so weit ist, dass das alles eins zu eins wie ein echter Mensch sich verhält?
Georg Neumann: sogar sehr bald schon. Also da wage ich die Prognose, dass das nicht mehr lange dauern wird. Also das ist kein Zukunftsgerät, sondern da reden wir eher von Monaten. also das ist nur, wenn quasi die nächste Entwicklungsstufe ist, die rein logische Entwicklungsstufe ist einfach, dass es nicht mehr separat voneinander generiert wird, sondern zusammen, also Ton und Video, wenn es gekoppelt generiert wird. Und dahinter auch noch ein Modell steht, das bisschen Emotionen auch im Text schon deuten kann zum Beispiel oder zumindest
Florian Gypser: Mmh. Krass.
Georg Neumann: Anweisungen im Prompt in Richtung Emotionen besser deuten kann, dann sind wir eigentlich technisch schon so weit. Die Videoqualität ist theoretisch schon da. Vielleicht ist es noch detektierbar technisch, weil es eben keine zufälligen Fehler hat zum Beispiel, aber zumindest reicht, wird es ausreichen, die meisten Menschen täuschen zu können. Das wird nicht mehr lange dauern. Auch jetzt schon, wenn jemand genug kriminelle Energie hat, könnte der Videos faken, die auch dich reinlegen würden. Dann bekommt plötzlich die Sekretärin eine WhatsApp-Video-Botschaft von der Nummer vom Chef. Sogar vielleicht mit Video-Botschaft. Du, überweis mal eine Mille, dauert dann dorthin. Ich habe eine neue Maschine für die Firma gekauft. Das muss ganz schnell passieren, sonst kriegen wir die nicht. Das kann in der Qualität sein, dass die gar nicht drüber nachdenkt, dass das fake sein könnte. Und dann wird es plötzlich gefährlich.
Florian Gypser: Mmh. Hm. Hm. Ja, das ist glaube ich auch so. Hm?
Georg Neumann: Weil für ne Euro... Mit ne Million Euro... Nee, da kann man ordentlich faken. Da kann man ordentlich auch von den Fakes stecken.
Florian Gypser: Ja, definitiv. Ja, das ist halt die Kehrseite des Ganzen. Ich hatte eher auch an Sachen gedacht, ... Was hat mir der Guido erzählt, mit dem ich einen anderen Podcast aufgenommen hab? Das ist jetzt die Erstbestrebung von einer amerikanischen Firma? Nee, das gibt's schon. Talk to ... Oh Gott, jetzt hab ich auch wieder ein Namensgedächtnis. Ich bin urlaubsreif. Ich fahr morgen Urlaub, das ist auch überfällig. Wie heißt der denn? Tony Robbins. Verklagt, amerikanische Start-up. Talk to Tony heißt das, ich. Also die Plattform, da kannst du mit einem Chatbot, ich weiß nicht, ob du nur schreiben kannst, ich meine, du kannst richtig reden auch. Und die haben die Stimme auch geklont, dass du dich im Prinzip mit ihm unterhältst und an sein Wissen anzapfst. Die haben alles, er in Publikationen, so welches Verstand er von Tony Robbins gibt, genommen, da reingefüttert, also sein ganzes Wissen. Und auch angefangen, das mit anderen bekannten Coaches und Persönlichkeiten zu machen. Und es gibt wohl auch eine deutsche Firma. weiß nicht, ob die schon am Markt ist oder nur angekündigt hat. Die möchte so was mit offizieller ja, Zertifizierung der jeweiligen Person, also Freigabe, auf den Markt bringen. Dass du sagen kannst, ich bin von einem deutschen Fußballer ein großer Fan. Ich find's pervers, weil er wieder auf die Kinder abgezählt wird und Teenager. Und du kannst jetzt eine Stunde für, was weiß ich, 50 Euro mit ... schieß mich tot ... chatten. Im Hintergrund ist es nur Chatbot, der die Person quasi geklont hat. Das ist sehr kommerziell, aber zumindest ja noch offiziell gekennzeichnet. Was ich mir nur gerade gedacht habe, wo du sagtest, man kann das basierend auf Sprache und allem erzeugen, gibt es eigentlich die Möglichkeit, es Dorephra, garantiert schon, dass ich zum Beispiel einen Menschen hinsichtlich seiner Gestik, seiner Sprache, seiner Körperbewegung analysiere. Also wie man das bei CGI Ja, Filmen macht, dass die Person halt mit den Punkten eigentlich alles spielt und dann nachher die virtuelle Figur drüber gesetzt hat. Aber ohne, dass die Person alles spielt, sondern dass man einfach eine Person scannt, lernt. Also ich hör das jetzt von Sprechern. Die ganze Sprecherbranche in Deutschland, nicht nur in Deutschland, ist in großem Aufruhr. Weil immer mehr Anfragen an Sprecher kommen, dass Unternehmen sagen, möchten deine Stimme klonen, zukünftig halt alles damit zu machen. Die zahlen dann zwar üppige Summen, aber das ist halt ein einmaliger Buyout. Könnte man das mit der Person auch machen? Ich denke jetzt mal einfach nach einem Schauspieler, der verstorben ist, Gary Grant oder wer auch immer, den aus Filmen zu sagen, erkenne die Person, ihre Mimiksprache und klone die und jetzt machen wir den einen neuen Film. Gibt es da schon die Technologie oder Ansätze in der Richtung?
Georg Neumann: wäre jetzt schon problemlos machbar. man kann die einzelnen Parts alle antrainieren quasi. Da ist ja dann genug Trainingsmaterial auch da von diesen Personen, also genug Fotos, genug Videos und so weiter. Das heißt, man hat genug Beispiele und Trainingsdaten für die Stimme, Aussehen. Man kann theoretisch auch das Verhalten oder man kann die ganzen quasi die ganzen Filme transkribieren und aus diesen Transkripten könnte man dann quasi den Sprechstil ableiten und so weiter und so fort. Also die einzelnen Techniken gibt's schon. wird ja teilweise auch schon kombiniert, wenn jetzt irgendwie Elvis auf der Bühne als Hologrammer auftaucht und so weiter, dass er mit Sicherheit auch schon KI im Spiel und das wird in Zukunft halt noch immer mehr kommen. vielleicht sehen wir irgendwann noch einen Star Wars Film mit allen alten Schauspielern. Kann durchaus passieren. also dass es dann einfach Star Wars Episode 6.5 gibt plötzlich. Keine Ahnung.
Florian Gypser: Zum Beispiel. Oder minus eins.
Georg Neumann: Oder minus eins, genau. Da würden wir uns dann rückwärts altern lassen oder wie auch immer. Geht theoretisch schon alles. Also da wird in Zukunft noch viel viel passieren. Das ist natürlich rechtlich ultraspannend. Dann auch mit Verstorbenen. Ob das dann mit den Hinterbliebenen geregelt wird oder gar nicht oder wie auch immer. Das ist halt gerade ein riesiger Wilder Westen. Auch rechtlicher Natur natürlich und ethischer Natur.
Florian Gypser: Mmh. Es gab in Deutschland einen Fall, wo das offiziell mit der Stimme gemacht wurde, nämlich mit Hans Clarin bei der Neuverfilmung von Pumuckl. Das fand ich wiederum cool, weil Pumuckl, meine Kindheit, logisch. Da siehst du mal. Woran ... Wie sage ich, dass ich alt bin, ohne zu sagen, dass ich alt bin? Pumuckl war meine Kindheit. Aber das ist so markant und so charakteristisch, also, dass die Figur lebt halt nur mit dieser Stimme. Aus meiner Sicht. fand ich total klasse. Und soweit ich das mitbekomme, das ging ja durch die Presse, haben sie das mit den Hinterbliebenen auch alles rechtlich geklärt. Weil klar, kannst du nicht machen, einfach wilder Westen.
Georg Neumann: Aber das ist wahrscheinlich genau das, jetzt mit Tony Robbins passiert ist. hab die Geschichte noch nicht verfolgt, aber wenn die das einfach ungefragt machen, dann ist es schlichtweg Diebstahl. Ganz einfach.
Florian Gypser: Ja klar, aber da sind sie in USA was so... Also in der Musik- und Medienindustrie sind sie sehr, sehr fix drauf, was Urheberrecht betrifft. Die haben das als erstes erkannt, dass das ein riesiges Geschäftsmodell ist. Aber Datenschutz und so, ist ja eine Sache, die... Da ist man ein bisschen entspannter als bei uns. Ein bisschen viel entspannter. Vielleicht auch bisschen zu entspannt. Ja, spannend. Mit Blick auf die Uhr. Ich hatte ja gesagt, wir sprechen heute darüber, uns an neuen Entwicklungen erwartet. Was wir so als Normalsterbliche so miterleben, ist ja eigentlich nur die Spitze des Eisbergs und die Oberfläche. Was ich regelmäßig von Kunden gefragt werde, wenn wir jetzt ein Schulungsvideo drehen, können wir das auch mehrsprachig mit KI machen. Das geht ja. Hey Gens, glaube ich, oder womit macht man das am meisten?
Georg Neumann: Heychen ist echt der Platz hier, Sherr. Da kann ich einfach ein Video reinkippen, klick auf eine andere Sprache, dann wird es mit der Sprache des Sprechers und neuer Lippensynchronisierung plötzlich in Französisch ausgegeben. Ja, das funktioniert erstaunlich gut.
Florian Gypser: Hm. Da haben nur alle bisher, mit denen ich darüber gesprochen habe, also Unternehmen, gehobener Mittelstand, nur ein Thema dabei und das ist der Datenschutz.
Georg Neumann: Man sollte das mit demjenigen Mitarbeiter auch abklären. Natürlich, der muss natürlich die Rechte dafür abtreten, dass das in einem KI-System verarbeitet wird. Dann muss man natürlich schauen, wie sehen die Nutzungsbedingungen von H aus? Gibt man da Nutzungsrechte an einem hochgeladenen Videomaterial ab und so weiter und so fort? Und dann muss halt einfach mit dem Mitarbeiter auch klar geklärt werden, wie damit umgegangen wird. Natürlich sollte dann immer die Hand drauf haben und die Marketing-Abteilung sollte nicht einfach irgendwas mit dem machen dürfen und solche Späße. ⁓
Florian Gypser: Hm.
Georg Neumann: Da müssen auch Unternehmen jetzt intern natürlich die Verträge und Vereinbarungen halt auch mal alle grundsätzlich überdenken.
Florian Gypser: Ja, und auch wenn es Inhalte gibt, jetzt nicht komplett für die Öffentlichkeit sind, sondern nur für eine gated community oder einen geschlossenen Anwenderbereich, wird es ja auch schwierig, wenn es wirklich Interna geht. Also wenn es rein interne Schulungen sind, da machen sich auch manche keine Gedanken. Ich habe jetzt gerade einen Fall mit einem Unternehmen, mit dem wir zusammenarbeiten, die genau deswegen das Thema erstmal gestoppt haben. Weil es Interna geht und da gibt es keine Datensicherheit.
Georg Neumann: Mhm. muss man halt immer abschätzen, mit welchen Daten man arbeitet. Sobald es sensible Daten geht, muss man ganz klar hinschauen, mit welchen KI-Systemen kann man überhaupt arbeiten. Es gibt schon ein paar, denen man auch datenschutzkonform arbeiten kann, aber es sind nicht mal so viele. Aber ich arbeite zum Glück im Bereich Marketing, da ist das Ganze ein bisschen unkritischer. Die einzigen sensiblen Daten, die da unterwegs sind, sind eigentlich dann Kundendaten und die kann man vorher anonymisieren. Das ist zum Glück da ein bisschen einfacher.
Florian Gypser: Hm. Hm. Ja, definitiv. Was würdest du sagen, ausgehend von heute erwartet uns in den nächsten sechs bis zwölf Monaten als krasse Neuerungen, die vielleicht schon im Verborgenen schlummern, aber als normalsterblicher, auch die Hörerinnen und Hörer meines Podcasts, sind wahrscheinlich eher alltägliche Anwender von KI, sprich Spitze des Eisbergs. Was kommt als Nächstes? Also nicht als Vermutung, sondern du bist ja ein Thema drin. Was bahnt sich an?
Georg Neumann: Also Thema interaktive Avatare, also in Video Form, die die wirklich dann nicht nur als Chatbot Text ausgeben, sondern wirklich in Video Form die antworten, die werden jetzt Fahrt aufnehmen. Die sind schon da. Die sind bloß im Moment noch technisch komplex und auch teuer in der Umsetzung. Aber das wird natürlich die nächsten 12 Monate definitiv zugänglicher werden, dass immer mehr Unternehmen, im Kundensupport ausrollen oder vielleicht auch am Messestand ist, dann plötzlich ein Display vor, wo der Geschäftsführer theoretisch ansprechbar ist in digitaler Form und solche Späße. Das wird immer mehr kommen. Das ist gerade schon da. Genau. Ansonsten im Bereich Videogenerierung und Bildgenerierung. wird einfach nur jeden Monat besser werden und leichter zugänglich. Das heißt, da muss man ein bisschen am Ball bleiben, damit man davon nicht überrollt wird. Wenn man damit arbeiten wollte oder das zumindest strategisch betrachten will für sein Unternehmen, sollte man ein bisschen am Ball bleiben, weil die Entwicklungen nehmen nicht ab. Das nimmt eher nur noch mehr Fahrt auf. Erst recht seit China als auch immer mehr kommt und richtig geile Modelle auf den Markt wirft und nicht mehr nur rein die USA. Das heißt, ist ein nice Battle, dem man zuschauen kann, wer jetzt die besseren Modelle veröffentlicht und die besseren Ergebnisse liefert. ist zum Glück jetzt kein US-Monopol mehr da, sondern auch mit China ein starker Konkurrent da.
Florian Gypser: waren sich irgendwelche Entwicklungen aus Europa. Ich glaube, wir beide haben darüber gesprochen. Du hast doch gesagt, in München sind schon KI-Unternehmen, es sind sogar Chetjie Pt, die deutschen hier lassen von Open AI in München.
Georg Neumann: Ich glaube ja, ich weiß den aktuellen Stand nicht mehr, aber ich glaube da habe ich mal was gehört gehabt. Also es gibt schon ein paar interessante Startups im KI Bereich. In meinem Bereich speziell gibt es ja auch mit Black Forest Labs eine spannende Firma, die ja der Flux entwickelt. Also eins von den besten Bild-KI Modellen auf den Markt. Und was da noch kommt, wird natürlich auch spannend. Die hatten anfangs auch angekündigt an Videomodellen zu arbeiten für die Videogenerierung. Mit Flux-Kontext haben sie ein ganz starkes Modell erst vor ein paar Monaten rausgebracht. Also da wird mit Sicherheit noch was kommen. Ansonsten gibt es in Europa noch Mistral. Das ist eine super JetGPT-Alternative. Die einzige ernst zu nehmende aus Europa, muss ich leider sagen. Die man aber gerne mal auf dem Schirm haben kann, auch wenn es Thema Datenschutz zum Beispiel ginge. Also wenn man jetzt Beispiel eine datenschutzkonforme oder sogar eine Open Source Lösung sucht, dann kann man sich mal Mistral anschauen.
Florian Gypser: Na spannend. Ja, vielen Dank für deinen Input. Zusammenfassend, wenn ich das jetzt so richtig verstanden habe, was auch den Einsatz im Unternehmenskontext, in der Unternehmenskommunikation betrifft, würdest du auch unterschreiben oder sagen, dass sobald es ⁓ ja wirklich sensible oder auch authentische Inhalte geht, wo es halt nicht nur ⁓ den informellen Kontext geht, sondern auch das Vermitteln von Vertrauen und Emotionen, KI, vermutlich erstmal keine große Rolle spielt. Aber in der reinen Informationsvermittlung, auch gerade nach außen, wenn es First-Level-Support geht und einfache Themen, das auf jeden Fall ein ernst zu nehmendes Thema sein wird für Unternehmen.
Georg Neumann: Definitiv kann ich es unterschreiben.
Florian Gypser: Prima. Ja, Georg, spannendes Thema. Da können wir noch stundenlang drüber sprechen, weil es so viele Möglichkeiten gibt. Das werden wir vielleicht irgendwann noch mal nachholen. Hier danke ich dir jetzt erst mal für deinen weitreichenden Input und deine vielen Insights, die du uns gegeben hast. Und allen Zuhörerinnen und Zuhörern vielen Dank fürs Dabeisein und Zuhören. Wenn dir dieser Podcast gefallen hat, like ihn doch gerne. Gerne auch eine 5-Sterne-Bewertung. Das freut mich immer dann. weil es auch im Ranking die Podcast weiterbringt und der Sinn und Zweck der Sache ist, anderen Menschen zu helfen und Informationen weiterzugeben. Oder leite ihn natürlich auch gerne weiter. Und in diesem Sinne würde ich sagen, bis zum nächsten Mal, Georg, und eine schöne Restwoche noch. Tschüss.
Georg Neumann: dir auch. Schönen Urlaub. Ciao.