Apple-KI-Forscher verfügen über ein nützliches On-Device-Modell, das GPT-4 deutlich übertrifft

Siri hat kürzlich versucht, Bilder zu beschreiben, die bei der Verwendung von CarPlay oder der Werbebenachrichtigungsfunktion in Nachrichten empfangen wurden. In typischer Siri-Manier ist die Funktion inkonsistent und hat gemischte Ergebnisse.

Apple macht jedoch Fortschritte bei der Erfüllung des Versprechens der künstlichen Intelligenz. In einem neu veröffentlichten Artikel beschreiben Apples KI-Experten ein System, mit dem Siri mehr kann, als nur zu erkennen, was in einem Bild enthalten ist. Der beste Teil? Das Unternehmen geht davon aus, dass eines seiner Modelle zur Durchführung dieser Benchmarks besser ist als ChatGPT 4.0.

Im Papier (ReALM: Reference Accuracy as Language Modeling) beschreibt Apple etwas, das einem großen, sprachmodelloptimierten Sprachassistenten einen sinnvollen Schub geben könnte. ReALM berücksichtigt, was auf Ihrem Bildschirm angezeigt wird und aktive Aufgaben. Hier ist ein Auszug aus der Arbeit, die die Funktion beschreibt:

1. Bildschirmentitäten: Dies sind die Entitäten, die derzeit auf dem Bildschirm des Benutzers angezeigt werden

2. Konversationsentitäten: Dies sind die Entitäten, die sich auf die Konversation beziehen. Diese Entitäten können aus einem früheren Zug des Benutzers stammen (wenn der Benutzer beispielsweise „Mama anrufen“ sagt, ist „Kontakt für Mama“ die betreffende relevante Entität) oder vom virtuellen Assistenten (z. B. wenn der Agent das bereitstellt). Benutzer mit einer Liste von Orten oder Warnungen zur Auswahl).

3. Hintergrundentitäten: Hierbei handelt es sich um verwandte Entitäten, die aus Hintergrundprozessen stammen und nicht unbedingt ein direkter Teil dessen sind, was der Benutzer auf seinem Bildschirm sieht oder mit dem virtuellen Agenten interagiert. Zum Beispiel ein Wecker, der zu klingeln beginnt, oder Musik, die im Hintergrund läuft.

Wenn es gut funktioniert, klingt das nach einem Rezept für eine intelligentere und nützlichere Siri. Auch Apple scheint zuversichtlich, eine solche Aufgabe unglaublich schnell erledigen zu können. Der Vergleich erfolgt mit ChatGPT 3.5 und ChatGPT 4.0 von OpenAI:

Als weitere Basis führen wir die Varianten GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) und GPT-4 (Achiam et al., 2023) von ChatGPT aus, die am 24. Januar 2024 verfügbar sind, mit Lernfunktion bei Kontext. Wie in unserem Setup zielen wir darauf ab, dass beide Variablen die Liste der Entitäten aus der verfügbaren Menge vorhersagen. Im Fall von GPT-3.5, das nur Text akzeptiert, besteht unsere Eingabe nur aus dem Vektor; Im Fall von GPT-4, das auch die Möglichkeit bietet, Bilder in einen Kontext zu stellen, stellen wir dem System jedoch einen Screenshot der Referenzauflösungsaufgabe auf dem Bildschirm zur Verfügung, was unserer Meinung nach zu einer erheblichen Leistungssteigerung beiträgt.

Wie funktioniert also Apples Modell?

Wir haben erhebliche Verbesserungen gegenüber einem bestehenden System mit ähnlicher Funktionalität bei verschiedenen Referenztypen gezeigt, wobei unser kleineres Modell bei Bildschirmreferenzen absolute Zuwächse von mehr als 5 % erzielte. Wir messen auch die Leistung von GPT-3.5 und GPT-4, wobei unser kleineres Modell eine ähnliche Leistung wie GPT-4 erreicht und unsere größeren Modelle diese deutlich übertreffen.

Wollen Sie damit sagen, dass Sie ihm deutlich überlegen sind? Das Papier schließt teilweise wie folgt:

Wir zeigen, dass ReaLM frühere Ansätze übertrifft und fast genauso gut funktioniert wie das heutige hochmoderne LLM, GPT-4, obwohl es aus viel weniger Parametern besteht, selbst für Bildschirmverweise, obwohl es sich ausschließlich um Textdomänen handelt. Außerdem übertrifft es GPT-4 bei domänenspezifischen Benutzeranweisungen, was ReaLM zur idealen Wahl für ein praktisches Referenzanalysesystem macht, das ohne Leistungseinbußen auf dem Gerät ausgeführt werden kann.

auf dem Gerät, ohne die Leistung zu beeinträchtigen Es scheint, dass der Schlüssel bei Apple liegt. Wir hoffen, dass die nächsten Jahre der Plattformentwicklung interessant werden, beginnend mit iOS 18 und der WWDC 2024 am 10. Juni.

Siehe auch Smite 2 angekündigt, Alpha-Playtest kommt im Frühjahr 2024

FTC: Wir nutzen automatische Affiliate-Links, um Einnahmen zu erzielen. mehr.

Ayhan

„Unruhestifter. Begeisterter Popkultur-Fan. Fernseh-Junkie. Bierliebhaber. Analytiker. Vollkommener Speckgelehrter. Denker.“

Leaks über Google Pixel 9 Pro-Abdeckungen mit Kameraschutzbügel

Galaxy Z Flip 6, Z Fold 6 und neue Samsung Wearables kommen in den Verkauf

Es wird erwartet, dass die interne Änderung bei den iPhone 16-Modellen den Temperaturanstieg verringert

Eröffnungszeremonie der Olympischen Spiele 2024 in Paris: Die fliegende olympische Flamme schwebt über Paris, während Céline Dion das Publikum begeistert

Die NASA steht kurz vor der Entscheidung, was mit der in Schwierigkeiten geratenen Boeing-Raumsonde Starliner geschehen soll

Anzahl der Medaillen bei den Olympischen Spielen in Paris: Verfolgen Sie die Medaillen nach Ländern im Jahr 2024

Leaks über Google Pixel 9 Pro-Abdeckungen mit Kameraschutzbügel

Schreibe einen Kommentar Antworten abbrechen

More Stories

Leaks über Google Pixel 9 Pro-Abdeckungen mit Kameraschutzbügel

Galaxy Z Flip 6, Z Fold 6 und neue Samsung Wearables kommen in den Verkauf

Es wird erwartet, dass die interne Änderung bei den iPhone 16-Modellen den Temperaturanstieg verringert

You may have missed

Eröffnungszeremonie der Olympischen Spiele 2024 in Paris: Die fliegende olympische Flamme schwebt über Paris, während Céline Dion das Publikum begeistert

Die NASA steht kurz vor der Entscheidung, was mit der in Schwierigkeiten geratenen Boeing-Raumsonde Starliner geschehen soll

Anzahl der Medaillen bei den Olympischen Spielen in Paris: Verfolgen Sie die Medaillen nach Ländern im Jahr 2024

Leaks über Google Pixel 9 Pro-Abdeckungen mit Kameraschutzbügel