- AI Crunch
- Posts
- #177: LLMs reißen Standards des EU AI Acts, OpenAI holt Palantir-CISO
#177: LLMs reißen Standards des EU AI Acts, OpenAI holt Palantir-CISO
🖼️, liebe Cruncher!
Zum ersten Mal überhaupt verkauft ein bekanntes Auktionshaus ein KI-generiertes Bild.
Das “AI-God” betitelte Porträt des britischen Wissenschaftlers Alan Turing wurde von Ai-Da erstellt, einer 2019 an der Universität Oxford entwickelten “ultrarealistischen humanoiden Roboterkünstlerin” - und kann vom 31. Oktober bis 7. November online bei Sotheby’s ersteigert werden.
Wir prognostizieren: KI-Kunst wird zur neuen Hype-Assetklasse - Leute haben schließlich auch Geld für NFTs ausgegeben (remember?).
Let’s go!
before the bell
*Stand: Vortag, 22 Uhr - was diese Zahlen bedeuten 📊
big tech
Big Tech im Compliance-Check: KI-Modelle strugglen noch mit EU AI Act
Was ist passiert? Einige der größten KI-Modelle werden den Anforderungen des EU AI Acts nicht gerecht – zeigt ein von der EU-Kommission unabhängiger Test
In A Nutshell: Das Tool LatticeFlow, entwickelt an der ETH Zürich mit Unterstützung der EU, testet KI-Modelle in verschiedenen Kategorien – darunter Cybersicherheit und diskriminierungsfreie Outputs 🔍
Die Details: Von den großen Modellen schneidet Claude am besten ab – gefolgt von Googles Gemma und dann ChatGPT 3.5
Scale Check: Die Testergebnisse bewerten die KI-Modelle auf einer Skala von 0 (keine Compliance) bis 1 (volle Compliance) hinsichtlich ihrer Übereinstimmung mit den Anforderungen des EU AI Acts
By the Numbers: OpenAIs GPT-3.5 Turbo erzielte in der Kategorie “diskriminierende Outputs” nur eine Punktzahl von 0,46 – Alibabas Modell Qwen1.5 erzielte sogar noch niedrigere Werte
Eins Plus: Bekommen die OpenAI Modelle dafür, dass sie keine gefährdenden Antworten abgeben – und GPT-4 schneidet beim Thema “Lügen” deutlich besser ab als noch der Vorgänger GPT-3.5 (um Missverständnissen vorzubeugen: weniger Lügen, nicht bessere)
Mixed Results: In der Kategorie "Prompt Hijacking" (eine Art von Cyberangriff) erhielten viele LLMs schlechte Bewertungen - Anthropics Claude 3 Opus schnitt mit 0,89 Punkten noch am besten ab
Warum das wichtig ist: Weil der EU AI Act Geldstrafen von bis zu €35 Millionen oder 7% des weltweiten Umsatzes für Unternehmen vorsieht, die nicht konform sind
Bigger Picture: LatticeFlow ist keine Behörde der EU – und das Ranking hat damit keinen Einfluss auf Strafen oder Weiterentwicklung – aber: Die EU wird ihren AI Act überwachen wollen und dabei auf existierende Frameworks zurückgreifen
Insofern: Hilft das Ranking natürlich den LLM-Entwicklern, ihre Lücken zu finden – und allen LLM-Nutzern, die jeweiligen Stärken und Schwächen besser zu verstehen
Further Reading: Reuters, LatticeFlow
partner
big bets
OpenAI: Holt Palantir-Sicherheitschef an Bord
Was ist passiert? Dane Stuckey, der frühere Chief Information Security Officer (CISO) des Big Data-Unternehmens Palantir, ist nun der neue Co-CISO bei OpenAI
Die Details: Stuckey übernimmt diese Rolle gemeinsam mit Matt Knight, der erst im September zum CISO ernannt worden war 🔐
Who’s who: Stuckey leitete bei Palantir das Incident-Detection- und Response-Team – und hat über ein Jahrzehnt Erfahrung in digitalen Forensik- und Sicherheitsprogrammen, besonders im Regierungsbereich
OpenAI: Ist daran interessiert, seine Zusammenarbeit mit Regierungen auszubauen – und da passt Stuckey (inkl. seines Track-Records und seiner Kontakte) sehr gut rein
Sicherheit ganz wichtig: OpenAI baut seit Monaten sein Sicherheits-Team aus – vor allem auch, weil das Unternehmen bereits mit dem Pentagon an Projekten arbeitet, die sich mit Cybersicherheit befassen
Warum das wichtig ist: Mit dem Schwenk in Richtung for-profit-Firma will OpenAI klarmachen, dass die Firma Sicherheit hoch priorisiert
Heißt: Da sind Hires wie Stuckey ein starkes Zeichen – aber natürlich noch keine Garantie, dass OpenAI seinen eigenen Sicherheitsansprüchen gerecht werden kann
Siehe: Das Ranking von LatticeFlow – dort werden OpenAIs Modelle jetzt regelmäßig auf Sicherheitskriterien geprüft
Further Reading: TechCrunch, Bloomberg
3 top reads
SAP: Neuer Spitzenreiter der europäischen Technologiefirmen
🏆 Der deutsche IT-Konzern hat ASML Holding NV als wertvollstes Technologieunternehmen Europas abgelöst. Der niederländische Chipmaschinenhersteller verlor über €60 Mrd. an Marktwert, nachdem er seine Umsatzerwartungen gesenkt hatte. Grund dafür sind Verzögerungen beim Bau von Chipfabriken und enttäuschende Bestellzahlen im Q3. (BBG)
Apple-Ingenieure: Entlarven die Schwächen von KI-„Logik“
🧠 Eine neue Studie von Apple-Ingenieuren zeigt, dass die mathematische „Logik“ von großen Sprachmodellen (LLMs) oft brüchig ist. Durch geringfügige Änderungen an Benchmark-Problemen sinkt die Genauigkeit erheblich. Dies deutet darauf hin, dass LLMs eher Muster erkennen als echte logische Schlussfolgerungen ziehen. (WIR)
Nach Google: Auch Amazon investiert in Nuklear-Kernkraftwerke für KI-Betrieb
☢️ Auch Amazon investiert in modulare Nuklear-Reaktoren. Denn diese versprechen dringend benötigte umweltfreundliche Energie - vor allem, um neue KI-Rechenprozesse mit Strom zu versorgen. Auch andere Tech- und KI-Player wie Google und Microsoft haben angekündigt, verstärkt auf Nuklearenergie zu setzen, um den Strombedarf von KI-Applikationen abzudecken. (AX)
community corner
Cruncher der Woche: Vielen Dank an Vincent, der vergangene Woche die meisten Leser:innen auf den AI Crunch aufmerksam gemacht hat (Share-the-Newsletter-Funktion ⬇️)
Umfrage der Woche: Unseren Karriereplan (morningcrunch groß machen, Springer übernehmen, Weltherrschaft) kennt ihr ja - aber was ist eigentlich eurer?
📊 |
Login oder Abonnieren um an umfragen teilzunehmen. |
watchlist
insights 💡
Photonik-Computing: KI-Computing-Startup Lightmatter erreicht Bewertung von $4,4 Mrd. (WSJ)
Chip-Markt: ASML-Chef erwartet langsame Erholung bis 2025 (BBG)
KI-Regulierung: Kalifornien zeigt, dass durchdachte Gesetze Vertrauen in KI schaffen können (FT)
Taiwans Finanzierungsboom: Größter Anstieg seit 2007 - dank KI-Nachfrage (BBG)
Dell & Nvidia: AI-Server mit Blackwell-Chips ab nächstem Monat (WIR)
DeepMind: Erhöht Forschungsausgaben massiv (FT)
Forscher: Zweifeln an der "Denkfähigkeit" von KI-Modellen - weil sie nach wie vor mit leichten Matheaufgaben überfordert ist (TC)
tools 🔧
WiseCut: Automatischer KI-Videoeditor (WC)
BuzzAbout: KI-gestützte Analyse von Kundenfeedback (BA)
iPad Mini 2024: Apple bringt KI-Funktionen auf das kleinste Tablet (WIR)
TikTok Smart+: Automatisierte KI-Werbelösungen auf Bytedance-Plattform (DIG)
Gmail: Q&A-Funktion jetzt auf iOS verfügbar - User können z.B. Inbox Fragen stellen und E-Mails zusammenfassen (GOOG)
jobboard
📌 Kleinanzeigen: Head of Marketing, Berlin
📌 Blinkist: Finance Director, Berlin
📌 Microsoft: Partner Development Manager, München, Berlin, Frankfurt
📌 DeepL: Product Marketing Manager, Köln
📌 Urban Sports Club: Programme & Business Development Manager, Berlin, Madrid
📌 Voiio: Chief Product Officer, Berlin
📌 Nelly: Business Development Manager, Berlin, Heidelberg, Stuttgart, München
☕️ Lap Coffee: Chief of Staff, Berlin
what do you meme?
crunching on
|
|
|
|
|