1. 主要ページへ移動
  2. メニューへ移動
  3. ページ下へ移動

トピックス

記事公開日

【社内雑談】新しいSiriが出るの?(実はオンデバイスAIの話)その1

はじめに

Appleが、今年現地時間6月8日に開発者会議「WWDC26」を開催し、iOS27(シリーズ)を発表しました。今回のOSの目玉は、新しいApple Intelligence、そしてSiri AIです。WWDCの基調講演のうちの3分の2近くをこのAI関連の紹介に使っていました。

いよいよ、AppleをもってしてもAI化の波に抗うことはできず、iOS27の中心機能もAIになりつつあるようです。そして、最初のApple IntelligenceはOpen AIのGPTベースでの実装でしたが、今回はGoogle Geminiをベースとした実装になると紹介されています。ただ、Geminiは既にAndroidでバリバリ使われているAIでもあるので、iPhoneとAndroidの差別化が難しいのでは、と言われています。

今回の社内雑談では、スマートフォンにおいても中心になりつつあるAIについて、Apple Intelligenceの話題を中心に、通信技術者の目線で話し合っていきたいと思います。

今回から全4回にわたってお送りする長編です。まずは、Apple Intelligenceの話からスタートします。

毎度おなじみではありますが、このブログはエンジニア個人が好き勝手に発信するものであり、所属組織(株式会社三技協)の公式の見解ではありませんので、あらかじめご承知置きください。

【社内雑談】新しいSiriが出るの?(実はオンデバイスAIの話) その1 その2 その3 その4

WWDC26

社員A(以下A): Appleが毎年恒例の「WWDC26」を開催したわけですが、Apple IntelligenceをはじめとするAI関連を前面に押してきた会となりました。私的には、「もうそれしかないだろうな」というイメージでしたので、特に驚きとかは無かったのですが。

社員B(以下B): まあ、そういう感想にはなるよね。正直なところ、OSやiPhone自体にはAppleがみんなから求められている「あっと驚くアイデア」というのはなかったよね。liquid Glass※1が進化したとか言われても、”そうなんだ”以外の印象は無いからね。

むしろ驚いたのは、iOS27がiPhone11から対応というところかな。iPhone11は2019年発売の端末で、新しいiOS27が秋に正式リリースと言っているから、ちょうど7年前の端末まで対応することになる。セキュリティパッチだけじゃなくて最新のOSが古い端末まで対応するところが、iPhoneの良さだと思う。

A: iPhone11ですか、凄いですね。そんな古い端末まで新しいApple Intelligenceが使えるんですね。

B: いや、それは違うんだ。初代のApple Intelligence自体がiPhone15 Pro以降からしか対応していない。だから、少なくとも新しいApple Intelligenceは、iPhone15 Pro以降でないと対応しないと考えられている。

fig
今この表記があるiPhoneなら新しいApple Intelligenceに対応する可能性がある。しかし、いつまで「ベータ」のままなのか?

A: 最新がiPhone17だから、それを考えると結構厳しい条件ですよね。

B: でも、それだけ厳しい条件を課していても、正直AIに関してはAppleが先端を走っているとは言えない状況もあって、これまでのApple Intelligenceは評判が良いとは言えなかった。だから、これはWWDC26よりずっと前に発表されていたけど、AIに関してはGoogleの協力を仰いで整備するということになっていた。そして、ここに来てやっとGoogleのAI技術を利用したAppleのAIが完成して、それをリリースできるって事だ。

でも、Googleと協力したからといって、プロセッサ関係無くApple Intelligenceが使えるかと言えば、そうでは無い。プロセッサ縛りは、今までと同じようにある。その辺、Apple Intelligenceの仕組みを知らないと、なぜクラウドにあるはずのGoogleのGeminiを使うのにプロセッサ縛りが必要なんだ?というのが分からないと思うので、ちょっとその辺を説明したいと思う。

A: 確かに。是非お願いします。

新しいApple Intelligence

B: 新しいApple Intelligenceは発表されたばかりなので、まだ中身の詳細は分からないけど、今分かっている時点の情報で説明になるけど、その辺はご承知置きを。

また、Apple IntelligenceはiPhone、iPadだけでなく、M1以降のMac(コンピューター)にも対応しているんだけど、特に触れない限り基本的にiPhoneかiPadの話だと思って聞いてくれ。例えばApple IntelligenceはVision Proにも対応しているけど、Vision ProのAIとか言われても知りませんので触れませんし、触れられません。

A: 分かりました。って、Vision Proって何でしたっけ?

B: 新しいAR/VRゴーグルだね。visionOSというOSも乗っかっていて、空中?画面内?でアプリを動かすこともできるようだ。私は全く興味がないので、これ以上は自分で調べてくれ。

fig
Apple Vision Pro
Apple Vision Proは、Apple Inc.の商標です。

A: 了解ですって、脱線しちゃいましたね。

B: そうそう、Apple Intelligenceの話だ。Apple Intelligenceとは、iPhoneの上で動くAI全般を指す言葉で、特定の機能とかアプリを指す言葉ではない。

A: じゃあ、Apple IntelligenceとSiriでは、何が違うんですか?

B: Siriは、AIではあるのだがiPhoneの音声アシスタントだけのことを指す。今回の新しいApple Intelligenceでは、SiriとApple Intelligenceが統合されている。そして、SiriにはSiri Apple Intelligence、略してSiri AIという名前が新たに付けられている※2。Siri AIについてはまた後で触れるとして、今はとりあえず新しくなったApple Intelligenceの一部であるという認識でいてくれ。

A: なるほど。

B: Apple IntelligenceはiPhoneで動くAIなのだが、一つのAIではなく3つのAIを統合したシステムであると言われている。図で表してみたので、ちょっと図を基に説明したい。

fig
Apple Intelligenceの構成

まず、Apple Intelligenceへのインプットを考えると、例えばSiriによる音声入力や、ユーザーによるテキスト入力、そしてOSやアプリなどによる自動的な入力があると思う。自動的入力って思いつかないかもしれないけど、例えば「テキストの自動修正」とか「ユーザーの動作を学習し自動的にお勧めを出してくる」とか、そういったものだ。いずれにしても、AIは何らかのインプットにより動作が開始される。

A: この辺は、PCのAIでも同じですね。

B: で、Apple Intelligenceに入力された情報は、システムオーケストレーターによって振り分けられる。システムオーケストレーターの仕事は他にもあるけど、とりあえず仕事を振り分ける機能がシステムオーケストレーターと考えてくれ。

まず、簡単な質問だったり、テキスト修正だったり、決まった画像処理だったり、iPhone上で完結しそうな内容は、AFM 3 CoreというオンデバイスAIで処理される。AFMはApple Foundation Modelの略で、AppleのAIの総称みたいなもの。また、AFM 3 CoreのようなオンデバイスAIの事を、ローカルLLMと呼んだり、Small Language ModelでSLMと呼ぶこともある。スモールといっても、他の一般アプリと比べれば決してスモールじゃないんだけど、比較対象がChatGPTなどのLarge Language Modelなので、SLMと呼ぶのが一般的だ。これだと、インターネットアクセス無しで、完全にスマホ上で完結できる。

A: AIってサーバーってイメージあるんですけど、iPhone内でもAIを動かしているんですね。

B: オンデバイスでは処理しきれないような仕事は、Private Cloud Compute(PCC)と呼ばれるAIにて処理される。これはAppleのサーバーで、AFM 3 CloudというAIが動く。で、もう少し高度な内容はAFM 3 Cloud Proと呼ばれる、Googleのサーバーで処理される。

A: どういうことですか? AFM 3 CloudはAppleのサーバーでAFM 3 Cloud ProはGoogleのサーバーなんですか?

B: その通り。今回のGoogleとの技術提携で、GoogleのAIサーバーも使うことになった。"Cloud"はAppleシリコンで動くApple純正のサーバーだが最大性能的に高くない。そこで、最大性能を発揮するためNVIDIAのGPUを使ったGoogleのサーバーも動かしていて、それが"Cloud Pro"ということになる。尚、Googleのサーバーではあるけど、GoogleのAIが動いているわけではない。Googleのサーバー上でAppleのAI、AFM 3 Cloud Proが動いている

A: Appleの自社製サーバーだけでは苦しかったということですね。

B: 最後に、めちゃくちゃ難しいプロンプト、例えば「先日のWWDC26の基調講演の概要をまとめてくれ」のような最新の情報が必要だったり、「半導体業界の歴史をレポートしろ」なんていう外部の巨大な情報を処理し検証するみたいな作業が必要だったりと、もの凄い高度なAIが必要な場合は、Google Geminiに投げてしまう。

A: Geminiですか。私もよくGoogle Notebook LMのお世話になります。あれは凄すぎます。

B: 現在のクラウドAIは、OpenAI ChatGPT、Anthropic Claude、そしてGoogle Geminiの三強で、残念ながらAppleは遥か後方にいる。だから、Googleの力を借りるという形になったのだろう。

A: ここらへんは、めちゃくちゃな規模の競争になっていますから、後発組はなかなか難しいですね。

B: 性能という面で劣るのは分かっていて、もはやAppleもそこでは勝負していない。Apple Intelligenceの特長は思考能力ではなくて、その情報の扱い方にあるといえる。

A: 情報の扱い方と言えば、確かに情報のセキュリティという面は、結構前からAppleが強調してきましたよね。

B: 先ほどの図と同じ機器構成なんだけど、セキュリティの面での違いを表した図をつくったので、これで説明します。

fig
Apple Intelligenceの構成
Apple内部(PCC)とGoogle Geminiを明確に分けて考えている

まず、AppleはAIで使ったユーザーの情報は一切学習しないと宣言している。iPhone内のオンデバイスAIにおいては当然だとしても、PCCに投げられたデータも学習は一切しない。この辺の学習という点では、GeminiもChatGPTも曖昧な感じなので、一般的にクラウドAIに流したデータは学習される可能性があると思ってみんな使っているよね。

A: AIに学習されて情報流出したって話もあまり聞かないのですが、何かあってからでは遅いので、パブリックなクラウドAIの使用は禁止している会社も多いですね。

B: さらに、AppleはPCCまでを暗号化している。これはAppleのサーバーで動かすAFM 3 Cloudだけじゃなくて、Google Cloudから借りているサーバーで動かすAFM 3 Cloud Proにおいても同じ。というか、PCCに含まれるサーバーは、Googleでも中身は一切関与できない状態になっているらしい。

A: さすがApple、徹底している。

B: でも、AppleといえどGoogle Geminiに流れるデータまで暗号化となると現実的ではない。Googleにデータを渡すのは最悪仕方ないとして、Apple IntelligenceはGeminiに渡すデータを極力制限する方向で作られている。で、どの程度制限するのかとか、そもそもどこのAIに振り分けるかとか、セキュリティーをどうするかとかのコントロールはシステムオーケストレーターがやっている。

A: システムオーケストレーターは、そんな事もやっているんですね。

B: 例えば、Apple Intelligenceは、メールとか連絡帳とかも学習対象になっている。それらはバリバリの個人情報だ。でも、それをPCCまで投げることはあっても、決してGeminiには投げない。さらに、Geminiに投げて良い一般的な情報、例えば「昨日の東京都内で開かれていたオーケストラのコンサートを教えて」みたいな何の機密性もない情報であっても、一応ユーザーに対して「Geminiに質問しても良いか?」的なユーザー承認プロセスが走るとされている。さらに、Googleとの契約で「どんな情報であってもGeminiには学習させない」ことになっていると発表されている。いわば、考えられる情報セキュリティ対策は全てやっている、という感じだね。

A: と考えると、Apple Intelligenceの最大の良さはセキュリティであり、それを司るのはシステムオーケストレーターであると考えることもできますね。

B: その通りで、システムオーケストレーターがApple Intelligenceの最大の差別化要因であるんだけど、実はもう一つのシステムオーケストレーターの仕事もApple Intelligenceの大きな特長であると言えるんだ。

A: もう一つの仕事?

B: これは、AppleがPC、スマホのハードからOSまで一貫して作っているからできる技なんだけど、Apple製品であれば横断的にAIがデータを学習しているということだ。例えば、Macにある資料と、iPhoneで撮った写真をAIが学習し、iPadで作っているプレゼンにAIが反映させる、そんな技ができるようになるらしい。

というのも、iOS、macOS等のAppleのOSが、ドキュメント、写真、メール、予定表などのデータの持ち方をOSやアプリが異なっても同じようになるように統一していて、それをセマンティック・インデックスでデータを管理するように構築されているからなんだよ。

A: セマンティック・インデックスって何ですか?

B: これまでのデータは、ファイル名であったり、ドキュメントであれば中身のテキストなんかを保存していて、検索も「ファイル名一致」や「テキスト一致」で行っていたよね。言うならば、文字を文字としてみていた。

でも、セマンティック・インデックスでは、データをベクトル化して保存して、データの属性というか「意味」というのを理解できるようにインデックス化する。LLMやTransformerの勉強をしたことのある人ならみんな知っている事と思うんだけど、「ベクトルのデータ」というのはLLMのベースとなる考え方なんだよ。これで検索用インデックスを持てば、「冬頃に鈴木教授がメールで指摘していた、無線LANのフロントホール要件についてのPDF資料」といったアバウトな検索や「来週の大阪出張に使う、新幹線とホテルの予約番号を抽出して」といった複数ソースからの情報をまとめて検索とか、従来の検索ではできないような検索が、AIを使ってできるようになる。

A: ベクトルはよくわからないけど、すごいことっぽいですね。

B: みんなにも「なぜベクトル」を理解して貰うために、LLMの教科書によく出てくる話をするね。

例えば、「王様」という単語には、「国の最高位」という”身分”に加えて「男性」という"性別"も意味する。同じように「女王」という単語は「国の最高位」+「女性」で表される。つまり、”身分”と”性別”という二つの次元をもったベクトルで表現することができる。

A: 分かったような、分からないよな・・・

B: そのように定義すると、こういった計算式も成り立つ。

  • 「王様」ー「男性」+「女性」=「女王」

実際のところ、この計算式は合っていると人間は判断できる。でも、人間は”何となく”言葉の意味を理解していて判断していて、計算式で覚えてるわけじゃない。一方、これまでのコンピューターは「王様」という単語は「(1) 王を敬っていう語。(2)その分野で,最高位にあるもの。王。」とい意味であるというテキストでしか記憶していなかった。もしくは「#国の最高位 #男性」といったタグでしか記憶していなかった。だから、これまでのコンピューターは「女王の意味は」という質問にはすぐ答えられるけど、「王様だけど男性じゃない人」と検索しても「女王」を探してくることはできなかった。でも、AIは内部でこのようなデータの持ち方をしているため、「王様だけど男性じゃない人」と検索して「女王」を探してくることができる。

fig
データはベクトル化される。そして、ベクトルの計算で単語の関係性が計算できる

もう一つ例を出す。例えば「自動車」という単語は、

  • 「自動車」=「動力がある」+「人が乗れる」+「金属製」+「タイヤ」+「ナンバープレート」+「運転する」+「ハンドルがある」・・・

と、それだけで様々な属性が付いている。次に、「トラック」という単語をベクトル的に表すと、

  • 「トラック」=「動力がある」+「人が乗れる」+「金属製」+「タイヤ」+「ナンバープレート」+「運転する」+「ハンドルがある」+「後部に荷台がある」・・・

となるんだけど、”後部に荷台がある”という部分以外はあまり「自動車」と「トラック」は変わらないんだよね。つまり、ベクトルとしては「自動車」と「トラック」は非常に似ているベクトルになる。AI的にはベクトルの距離が近いということは、単語の意味として近いと判断される。まあ、人間から考えても、両者は非常に近い存在と考えて間違っていないと思う。だから、「自動車で荷物を運ぶにはどうしたらよい?」という質問に「トラック」とか「ワゴン車」等の似ているものを含めてまで回答できる。

このように、データをベクトルで持っていると完全一致だけでなく、意味としておおよそ近いという概念でもデータを探すことができる。

A: なんとなく分かってきました。AIは言葉の意味を辞書的に持っているというよりは、言葉に色々な属性を付けていて、それを内部ではベクトルとして持っているということですね。

B: ちなみに、このベクトルの次元数についてはどのAIも非公開の場合が多いんだけど、おおよそ8000から16000次元程度と言われている。今の研究だとこれ以上は不要みたいで、実際AIが進化しても次元数はあまり増えていないと言われている。

A: いやいや、増えていないと言ったって10000次元とか想像もできないですよ。しかし、データをベクトルで持つって、思いも付きませんでした。

B: その辺はLLMの基本だからね。詳しく知りたい方は資料が沢山ありますから、ググってみてください。

それで、Apple Intelligenceのセマンティック・インデックスなんだけど、AIの知識がある人向けに言えば「RAG※3」としてインデックスデータを持つことに近いと思う。単語や文章でインデックスを作るのではなく、ベクトルでインデックスを作る。検索もデータの利用も、意味を持ってできる。だから「車」と検索して「トラック」を抽出できるし、全く同じ単語が使われていないにしても、同じ事を言っているメールだと分類するということもできる。

このようなセマンティック・インデックスはWindowsでも使い始めているし、別にApple独自の技術では決してない。でも、AppleにはハードもOSも統一しているという圧倒的なメリットがあるから、デバイス関係無く同じようにデータを持てて、同じようにセマンティック・インデックスを作れる。それによって、AIがデバイス縦断的にインデックスを使ってユーザーに提案できる。ハードもソフトもバラバラなAndroidやWindowsじゃあ、ここまでのことはできない。

そして、その辺をコントロールしているのもシステムオーケストレーターというわけ。Apple IntelligenceはAppleのハード・OSだから可能ということころもあると思うけど、AIとして考えた場合は、やはりキモはシステムオーケストレーターなんだと思うよ。

A: なるほど。でもシステムオーケストレーターはAppleの開発なんですよね?確かに、とてもAppleっぽい考え方ですね。でも、なんか上手くまとめすぎで、逆にそんな上手く動くのかか?と思わないでもないですが・・・

そういえば、ちょっと思ったんですけど、ここまで聞いているとGoogleとの提携って”サーバー貸し”と”困ったときのGemini”だけで、あまり大した提携ではなかったように聞こえちゃうんですけど、合ってますか?

B: いや、そうではないよ。AFM 3 CoreもAFM 3 Cloudも、実はGeminiで学習させたり、Geminiを蒸留※5したりして作られたものらしいから。つまり、AIのコーディングこそAppleが行っているけど、Googleの協力がなければ進化しなかった、ということのようだ。

A: そうか、どちらかというとGoogleはAIを提供するというよりは、AIの技術協力って感じなんですね。

次週予告

次週は、オンデバイスAIの説明と最新トレンドについて話します。次回をお楽しみに。

【社内雑談】新しいSiriが出るの?(実はオンデバイスAIの話) その1 その2 その3 その4

(担当M)

※1; iOS26から採用されたビジュアルデザインのこと。液体が作られたような、透明なボタン、アイコンが特徴。

※2; Appleは正式にSiri AIがSiri Apple Intelligenceの略だとは発表していないが、WWDC26の基調講演の中で、Siri Apple Intelligenceが縮まってSiri AIとなったような表現をしていた。

※3; Retrieval-Augmented Generation、日本語では「検索拡張生成」と呼ばれる。AIが外部に持つ学習データで、ベクトル化して格納される。RAGを使った最も有名なサービスが、GoogleのNotebook LMである。

※4; Gemma4 12BにおいてLM Studio+llama.cppでは音声ファイルの入力に対応していない。Gemma4 12Bで音声ファイルを使うためには、llama.cppではなくHuggingFaceのTransformersなどで直接AIモデルにアクセスしなければならない。

※4; AI用語で、ベースとなる巨大で優秀なAIを「先生」として、小型のAIに「先生」の出力を学習させて、小型のAIを作る手法のこと。