• AI Crunch
  • Posts
  • #177: LLMs reißen Standards des EU AI Acts, OpenAI holt Palantir-CISO

#177: LLMs reißen Standards des EU AI Acts, OpenAI holt Palantir-CISO

🖼️, liebe Cruncher! 

Zum ersten Mal überhaupt verkauft ein bekanntes Auktionshaus ein KI-generiertes Bild.

Das “AI-God” betitelte Porträt des britischen Wissenschaftlers Alan Turing wurde von Ai-Da erstellt, einer 2019 an der Universität Oxford entwickelten “ultrarealistischen humanoiden Roboterkünstlerin” - und kann vom 31. Oktober bis 7. November online bei Sotheby’s ersteigert werden.

Wir prognostizieren: KI-Kunst wird zur neuen Hype-Assetklasse - Leute haben schließlich auch Geld für NFTs ausgegeben (remember?).

Let’s go!

before the bell

*Stand: Vortag, 22 Uhr - was diese Zahlen bedeuten 📊

big tech

Big Tech im Compliance-Check: KI-Modelle strugglen noch mit EU AI Act

Was ist passiert? Einige der größten KI-Modelle werden den Anforderungen des EU AI Acts nicht gerecht – zeigt ein von der EU-Kommission unabhängiger Test  

  • In A Nutshell: Das Tool LatticeFlow, entwickelt an der ETH Zürich mit Unterstützung der EU, testet KI-Modelle in verschiedenen Kategorien – darunter Cybersicherheit und diskriminierungsfreie Outputs 🔍

Die Details: Von den großen Modellen schneidet Claude am besten ab – gefolgt von Googles Gemma und dann ChatGPT 3.5

  • Scale Check: Die Testergebnisse bewerten die KI-Modelle auf einer Skala von 0 (keine Compliance) bis 1 (volle Compliance) hinsichtlich ihrer Übereinstimmung mit den Anforderungen des EU AI Acts

  • By the Numbers: OpenAIs GPT-3.5 Turbo erzielte in der Kategorie “diskriminierende Outputs” nur eine Punktzahl von 0,46 – Alibabas Modell Qwen1.5 erzielte sogar noch niedrigere Werte

  • Eins Plus: Bekommen die OpenAI Modelle dafür, dass sie keine gefährdenden Antworten abgeben – und GPT-4 schneidet beim Thema “Lügen” deutlich besser ab als noch der Vorgänger GPT-3.5 (um Missverständnissen vorzubeugen: weniger Lügen, nicht bessere)

  • Mixed Results: In der Kategorie "Prompt Hijacking" (eine Art von Cyberangriff) erhielten viele LLMs schlechte Bewertungen - Anthropics Claude 3 Opus schnitt mit 0,89 Punkten noch am besten ab

Warum das wichtig ist: Weil der EU AI Act Geldstrafen von bis zu €35 Millionen oder 7% des weltweiten Umsatzes für Unternehmen vorsieht, die nicht konform sind

  • Bigger Picture: LatticeFlow ist keine Behörde der EU – und das Ranking hat damit keinen Einfluss auf Strafen oder Weiterentwicklung – aber: Die EU wird ihren AI Act überwachen wollen und dabei auf existierende Frameworks zurückgreifen

  • Insofern: Hilft das Ranking natürlich den LLM-Entwicklern, ihre Lücken zu finden – und allen LLM-Nutzern, die jeweiligen Stärken und Schwächen besser zu verstehen

Further Reading: Reuters, LatticeFlow

partner

desktoptimertrk_px

big bets

OpenAI: Holt Palantir-Sicherheitschef an Bord 

Was ist passiert? Dane Stuckey, der frühere Chief Information Security Officer (CISO) des Big Data-Unternehmens Palantir, ist nun der neue Co-CISO bei OpenAI 

Die Details: Stuckey übernimmt diese Rolle gemeinsam mit Matt Knight, der erst im September zum CISO ernannt worden war 🔐

  • Who’s who: Stuckey leitete bei Palantir das Incident-Detection- und Response-Team – und hat über ein Jahrzehnt Erfahrung in digitalen Forensik- und Sicherheitsprogrammen, besonders im Regierungsbereich

  • OpenAI: Ist daran interessiert, seine Zusammenarbeit mit Regierungen auszubauen – und da passt Stuckey (inkl. seines Track-Records und seiner Kontakte) sehr gut rein

  • Sicherheit ganz wichtig: OpenAI baut seit Monaten sein Sicherheits-Team aus – vor allem auch, weil das Unternehmen bereits mit dem Pentagon an Projekten arbeitet, die sich mit Cybersicherheit befassen

Warum das wichtig ist: Mit dem Schwenk in Richtung for-profit-Firma will OpenAI klarmachen, dass die Firma Sicherheit hoch priorisiert

  • Heißt: Da sind Hires wie Stuckey ein starkes Zeichen – aber natürlich noch keine Garantie, dass OpenAI seinen eigenen Sicherheitsansprüchen gerecht werden kann

  • Siehe: Das Ranking von LatticeFlow – dort werden OpenAIs Modelle jetzt regelmäßig auf Sicherheitskriterien geprüft

Further Reading: TechCrunch, Bloomberg

3 top reads

  • SAP: Neuer Spitzenreiter der europäischen Technologiefirmen

    🏆 Der deutsche IT-Konzern hat ASML Holding NV als wertvollstes Technologieunternehmen Europas abgelöst. Der niederländische Chipmaschinenhersteller verlor über €60 Mrd. an Marktwert, nachdem er seine Umsatzerwartungen gesenkt hatte. Grund dafür sind Verzögerungen beim Bau von Chipfabriken und enttäuschende Bestellzahlen im Q3. (BBG)

  • Apple-Ingenieure: Entlarven die Schwächen von KI-„Logik“

    🧠 Eine neue Studie von Apple-Ingenieuren zeigt, dass die mathematische „Logik“ von großen Sprachmodellen (LLMs) oft brüchig ist. Durch geringfügige Änderungen an Benchmark-Problemen sinkt die Genauigkeit erheblich. Dies deutet darauf hin, dass LLMs eher Muster erkennen als echte logische Schlussfolgerungen ziehen. (WIR)

  • Nach Google: Auch Amazon investiert in Nuklear-Kernkraftwerke für KI-Betrieb

    ☢️ Auch Amazon investiert in modulare Nuklear-Reaktoren. Denn diese versprechen dringend benötigte umweltfreundliche Energie - vor allem, um neue KI-Rechenprozesse mit Strom zu versorgen. Auch andere Tech- und KI-Player wie Google und Microsoft haben angekündigt, verstärkt auf Nuklearenergie zu setzen, um den Strombedarf von KI-Applikationen abzudecken. (AX)

community corner

Cruncher der Woche: Vielen Dank an Vincent, der vergangene Woche die meisten Leser:innen auf den AI Crunch aufmerksam gemacht hat (Share-the-Newsletter-Funktion ⬇️)

Umfrage der Woche: Unseren Karriereplan (morningcrunch groß machen, Springer übernehmen, Weltherrschaft) kennt ihr ja - aber was ist eigentlich eurer?

📊

Login oder Abonnieren um an umfragen teilzunehmen.

watchlist

insights 💡

  • Photonik-Computing: KI-Computing-Startup Lightmatter erreicht Bewertung von $4,4 Mrd. (WSJ)

  • Chip-Markt: ASML-Chef erwartet langsame Erholung bis 2025 (BBG)

  • KI-Regulierung: Kalifornien zeigt, dass durchdachte Gesetze Vertrauen in KI schaffen können (FT)

  • Taiwans Finanzierungsboom: Größter Anstieg seit 2007 - dank KI-Nachfrage (BBG)

  • Dell & Nvidia: AI-Server mit Blackwell-Chips ab nächstem Monat (WIR)

  • DeepMind: Erhöht Forschungsausgaben massiv (FT)

  • Forscher: Zweifeln an der "Denkfähigkeit" von KI-Modellen - weil sie nach wie vor mit leichten Matheaufgaben überfordert ist (TC)

tools 🔧

  • WiseCut: Automatischer KI-Videoeditor (WC)

  • BuzzAbout: KI-gestützte Analyse von Kundenfeedback (BA)

  • iPad Mini 2024: Apple bringt KI-Funktionen auf das kleinste Tablet (WIR)

  • TikTok Smart+: Automatisierte KI-Werbelösungen auf Bytedance-Plattform (DIG)

  • Gmail: Q&A-Funktion jetzt auf iOS verfügbar - User können z.B. Inbox Fragen stellen und E-Mails zusammenfassen (GOOG)

jobboard

📌 Kleinanzeigen: Head of Marketing, Berlin

📌 Blinkist: Finance Director, Berlin

📌 Microsoft: Partner Development Manager, München, Berlin, Frankfurt

📌 DeepL: Product Marketing Manager, Köln

📌 Urban Sports Club: Programme & Business Development Manager, Berlin, Madrid

📌 Voiio: Chief Product Officer, Berlin

📌 Nelly: Business Development Manager, Berlin, Heidelberg, Stuttgart, München

☕️ Lap Coffee: Chief of Staff, Berlin

*Liebe Arbeitgeber - sucht ihr smarte Young Professionals? Dann 📩 uns

what do you meme?

crunching on

Markets CrunchDu willst in <5 Minuten wissen, was heute die Börsen bewegt? Dann abonniere jetzt Markets Crunch.
Deals CrunchDu willst wissen, was heute in VC, PE und M&A wichtig wird? Dann abonniere jetzt Deals Crunch.
Consulting CrunchMBB & beyond: Personal-Ticker und Updates für alle mit Senator-Status - wir gehen für dich jeden Morgen die Extra Mile.
Immo CrunchUnternehmen, Projekte, Personen - jeden Morgen liefern wir dir aktuelle Trends und Fachwissen aus der Immobilienwirtschaft.
Automotive CrunchWohin steuert die Automotive Industry? Aktuelle Updates und Personalien aus Deutschlands wichtigster Branche.