AIに視覚記憶を与えるMemories.ai、Nvidiaと協業開始

AIに視覚記憶を与えるMemories.ai、Nvidiaと協業開始 AIニュース・トレンド

Metaからスピンアウトしたチームが挑む新領域

Memories.aiは2024年に設立された新興企業ですが、創業者のShawn Shen氏とBen Zhou氏はMetaでRayBanスマートグラスのAIシステムを構築していた人物です。彼らがMetaを離れて独立したのには明確な理由があります。

RayBanメガネでユーザーが日常を録画しても、その膨大な映像データから「あの時見たものは何だったか」を思い出すのが非常に難しいという課題に直面したのです。テキストなら検索できますが、映像は構造化されていないため、従来の技術では索引化が困難でした。

この問題を解決するため、二人はMetaからスピンアウトし、視覚記憶に特化したAI技術の開発に乗り出しました。2025年7月には800万ドルのシードラウンドを調達し、さらに800万ドルの拡張ラウンドを実施。総額1600万ドルの資金を獲得しています。

大規模視覚記憶モデル(LVMM)とは何か

Memories.aiの中核技術が「LVMM(Large Visual Memory Model)」です。これは動画を埋め込み形式でインデックス化し、データとして保存・検索できるようにするインフラです。Shen氏は「GoogleのGemini Embedding 2の小型版に相当する」と説明しています。

既存のChatGPTやGeminiにも「記憶機能」はありますが、これらは主にテキストベースです。ユーザーが過去に入力した文章や会話内容を記憶する仕組みで、視覚情報の記憶には対応していません。Memories.aiはここに特化している点が最大の差別化要因です。

技術開発のため、同社は「LUCI」という独自のハードウェアデバイスも開発しました。これは社内のデータ収集者が装着するもので、市販の高解像度ビデオレコーダーではバッテリー消耗が激しすぎたため独自開発に踏み切ったそうです。ただし、このデバイス自体を販売する予定はなく、あくまでモデル開発用のツールとして位置づけられています。

Nvidiaとの協業で何が変わるか

今回の発表の核心は、NvidiaのGTCカンファレンスでのコラボレーション公表です。Memories.aiはNvidiaの2つの技術を活用します。

一つ目が「Nvidia Cosmos Reason 2」という推論ビジョン言語モデルで、映像から意味を理解する能力を持ちます。二つ目が「Nvidia Metropolis」で、映像検索・要約アプリケーションです。これらを組み合わせることで、視覚記憶技術の開発を加速させる狙いです。

さらに同社はQualcommともパートナーシップを結んでおり、2026年後半からQualcommのプロセッサ上で動作する予定です。これにより、スマートフォンやウェアラブルデバイスへの搭載可能性が現実味を帯びてきます。大手ウェアラブル企業複数社とも協業中とのことですが、具体的な社名は明かされていません。

フリーランスにとっての具体的な活用イメージ

たとえば、クライアントとの打ち合わせ中にスマートグラスをかけていたとします。後日「あの時、クライアントが見せてくれた参考資料は何だったか」と思い出したい場面で、AIが「3月10日の会議で見せられたパンフレット」を映像から検索して提示してくれる、といった使い方が想定されます。

また、デザイナーやライターが街中で見かけた気になる広告やポスターを記録し、後からキーワードで検索できれば、インスピレーション管理が格段に楽になります。現状はスマホで写真を撮りますが、膨大な写真フォルダから探すのは手間です。視覚記憶AIがあれば「先月見たカフェの看板デザイン」のように自然言語で検索できるようになるでしょう。

まだ商業化は先、今は様子見でOK

Shen氏自身が「ウェアラブルとロボティクス市場の本格到来はまだ先だと思う。今はモデルとインフラの構築に注力している」と述べている通り、すぐに使えるサービスが登場するわけではありません。

現時点でMemories.aiが提供する製品やサービスの価格情報も公開されておらず、一般ユーザーやフリーランスが直接利用できる段階ではありません。あくまで技術開発とパートナーシップ構築のフェーズです。

ただし、Qualcommとの協業が2026年後半に控えていることを考えると、1〜2年以内にはスマートグラスやウェアラブルデバイスに組み込まれた形で実用化される可能性があります。MetaのRayBanメガネや、AppleのVision Proのような製品に統合されれば、一気に身近な存在になるかもしれません。

フリーランスへの影響

この技術が実用化されると、フリーランスの働き方にいくつかの変化が起こりそうです。

まず、打ち合わせや商談の記録が自動化されます。議事録を取る手間が減り、後から映像検索で「あの時の話」を正確に振り返れるようになります。クライアントとの認識違いを防ぐ効果も期待できます。

次に、インスピレーション収集が効率化されます。デザイナーやクリエイターにとって、街中で見かけた優れた事例を記録・整理する作業は意外と時間がかかります。視覚記憶AIがあれば、見たものを自動で分類・タグ付けしてくれるため、アイデアのストック管理が楽になるでしょう。

一方で注意点もあります。常時録画するウェアラブルデバイスはプライバシーの懸念を伴います。クライアントや取引先によっては録画を嫌がるケースもあるため、使用には配慮が必要です。また、膨大な映像データの保存にはストレージコストもかかります。

現時点では、特にライター、デザイナー、コンサルタントなど、クライアントとの対面コミュニケーションが多い職種にとって有益な技術になる可能性が高いと言えます。

まとめ

Memories.aiの視覚記憶技術は、AIウェアラブルの未来を示す興味深い取り組みです。ただし、商業化はまだ先なので、今すぐ何かアクションを取る必要はありません。

Qualcommプロセッサ対応が2026年後半に予定されているため、来年あたりから具体的な製品情報が出てくる可能性があります。それまでは、MetaのRayBanメガネやAppleのウェアラブル製品の動向を追いつつ、視覚記憶AI市場の成熟を待つのが賢明でしょう。

詳細はTechCrunchの元記事をご確認ください。

コメント

タイトルとURLをコピーしました