Mai 27, 2024

Migrelo – Polacy w Niemczech

Finden Sie alle nationalen und internationalen Informationen zu Deutschland. Wählen Sie im City Stuff Magazin die Themen aus, über die Sie mehr erfahren möchten

Apple-KI-Forscher verfügen über ein nützliches On-Device-Modell, das GPT-4 deutlich übertrifft

Apple-KI-Forscher verfügen über ein nützliches On-Device-Modell, das GPT-4 deutlich übertrifft

Siri hat kürzlich versucht, Bilder zu beschreiben, die bei der Verwendung von CarPlay oder der Werbebenachrichtigungsfunktion in Nachrichten empfangen wurden. In typischer Siri-Manier ist die Funktion inkonsistent und hat gemischte Ergebnisse.

Apple macht jedoch Fortschritte bei der Erfüllung des Versprechens der künstlichen Intelligenz. In einem neu veröffentlichten Artikel beschreiben Apples KI-Experten ein System, mit dem Siri mehr kann, als nur zu erkennen, was in einem Bild enthalten ist. Der beste Teil? Das Unternehmen geht davon aus, dass eines seiner Modelle zur Durchführung dieser Benchmarks besser ist als ChatGPT 4.0.

Im Papier (ReALM: Reference Accuracy as Language Modeling) beschreibt Apple etwas, das einem großen, sprachmodelloptimierten Sprachassistenten einen sinnvollen Schub geben könnte. ReALM berücksichtigt, was auf Ihrem Bildschirm angezeigt wird und aktive Aufgaben. Hier ist ein Auszug aus der Arbeit, die die Funktion beschreibt:

1. Bildschirmentitäten: Dies sind die Entitäten, die derzeit auf dem Bildschirm des Benutzers angezeigt werden

2. Konversationsentitäten: Dies sind die Entitäten, die sich auf die Konversation beziehen. Diese Entitäten können aus einem früheren Zug des Benutzers stammen (wenn der Benutzer beispielsweise „Mama anrufen“ sagt, ist „Kontakt für Mama“ die betreffende relevante Entität) oder vom virtuellen Assistenten (z. B. wenn der Agent das bereitstellt). Benutzer mit einer Liste von Orten oder Warnungen zur Auswahl).

3. Hintergrundentitäten: Hierbei handelt es sich um verwandte Entitäten, die aus Hintergrundprozessen stammen und nicht unbedingt ein direkter Teil dessen sind, was der Benutzer auf seinem Bildschirm sieht oder mit dem virtuellen Agenten interagiert. Zum Beispiel ein Wecker, der zu klingeln beginnt, oder Musik, die im Hintergrund läuft.

Wenn es gut funktioniert, klingt das nach einem Rezept für eine intelligentere und nützlichere Siri. Auch Apple scheint zuversichtlich, eine solche Aufgabe unglaublich schnell erledigen zu können. Der Vergleich erfolgt mit ChatGPT 3.5 und ChatGPT 4.0 von OpenAI:

Als weitere Basis führen wir die Varianten GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) und GPT-4 (Achiam et al., 2023) von ChatGPT aus, die am 24. Januar 2024 verfügbar sind, mit Lernfunktion bei Kontext. Wie in unserem Setup zielen wir darauf ab, dass beide Variablen die Liste der Entitäten aus der verfügbaren Menge vorhersagen. Im Fall von GPT-3.5, das nur Text akzeptiert, besteht unsere Eingabe nur aus dem Vektor; Im Fall von GPT-4, das auch die Möglichkeit bietet, Bilder in einen Kontext zu stellen, stellen wir dem System jedoch einen Screenshot der Referenzauflösungsaufgabe auf dem Bildschirm zur Verfügung, was unserer Meinung nach zu einer erheblichen Leistungssteigerung beiträgt.

Wie funktioniert also Apples Modell?

Wir haben erhebliche Verbesserungen gegenüber einem bestehenden System mit ähnlicher Funktionalität bei verschiedenen Referenztypen gezeigt, wobei unser kleineres Modell bei Bildschirmreferenzen absolute Zuwächse von mehr als 5 % erzielte. Wir messen auch die Leistung von GPT-3.5 und GPT-4, wobei unser kleineres Modell eine ähnliche Leistung wie GPT-4 erreicht und unsere größeren Modelle diese deutlich übertreffen.

Wollen Sie damit sagen, dass Sie ihm deutlich überlegen sind? Das Papier schließt teilweise wie folgt:

Wir zeigen, dass ReaLM frühere Ansätze übertrifft und fast genauso gut funktioniert wie das heutige hochmoderne LLM, GPT-4, obwohl es aus viel weniger Parametern besteht, selbst für Bildschirmverweise, obwohl es sich ausschließlich um Textdomänen handelt. Außerdem übertrifft es GPT-4 bei domänenspezifischen Benutzeranweisungen, was ReaLM zur idealen Wahl für ein praktisches Referenzanalysesystem macht, das ohne Leistungseinbußen auf dem Gerät ausgeführt werden kann.

auf dem Gerät, ohne die Leistung zu beeinträchtigen Es scheint, dass der Schlüssel bei Apple liegt. Wir hoffen, dass die nächsten Jahre der Plattformentwicklung interessant werden, beginnend mit iOS 18 und der WWDC 2024 am 10. Juni.