Google und sein Datenschatz

Gemini Training

YouTube wird mit KI noch wertvoller für Google.
Mit Gemini hat Google gestern sein neues LLM vorgestellt. Gemini soll in vielen Aspekten mit GPT-4 konkurrieren können. Allerdings hält Google das leistungsfähigste Modell, das ‚Ultra‘, momentan noch zurück.

Besonders interessant finde ich aber, dass Gemini Audiosprache direkt verarbeiten kann. Bei anderen LLMs wird Sprache zuerst in Text umgewandelt, bevor sie in das Sprachmodell eingespeist wird. Dabei gehen jedoch wichtige Informationen verloren, die ein Sprecher durch seine Ausdrucksweise vermittelt. Zum Beispiel, ob er wütend oder traurig ist, wenn er einen Satz sagt. Gemini kann Audio nun eigenständig verarbeiten.

Wenn ein Sprachmodell also auch diese feinen Nuancen verstehen und daraus mehr lernen kann als aus reinem Text, stellt sich die Frage: Was ist dann möglich, wenn die KI auch Videos als Rohmaterial verstehen kann? Also auch die Mimik, den Raum in dem etwas gesagt wurde usw.

Vor allem aber: Google verfügt mit YouTube über einen der größten Datensätze für das Training von Sprachmodellen, sowohl in Audio- als auch in Videoformat. Gute Trainingsquellen könnten in Zukunft ein Engpass werden, und hier sehe ich bei Google einen gewissen Vorsprung. Auch wenn andere technologisch nachziehen werden. Alleine der Besitz der Video Daten ist unfassbar Wertvoll.

Das wird ein interessantes Rennen, bei dem nicht nur der reine Technologievorsprung entscheidend ist.