GPT-5.4が公開！AIによるPC操作や人間超えのベンチマークなど進化したポイントをまとめてみた

パソコン・IT

（文＝スマホライフPLUS編集部）

「ChatGPT、結局どのモデルを使えばいいの？」──そんな疑問を抱えている方、少なくないはずです。OpenAIは矢継ぎ早に新モデルを投入しており、正直なところ追いかけるだけでも大変。しかし今回リリースされたGPT-5.4は、ちょっと話のスケールが違います。

ひと言でまとめると、「AIが自分でパソコンを動かせるようになった」モデルです。これまでのChatGPTは”テキストで答えを返すだけ”の存在でしたが、GPT-5.4はスクリーンショットを見ながらマウスやキーボードを操作し、ソフトウェアそのものを扱えます。

この記事では、スペック表だけではわからない「自分の生活や仕事にどう影響するのか」を軸に、GPT-5.4のポイントを噛み砕いて解説していきます。

ChatGPTの新モデル選択画面のスクリーンショット — （画像はスマホライフPLUS編集部撮影）

GPT-5.4とは？3行でわかるポイント整理

まず、忙しい方のために要点を3つだけ押さえておきましょう。

・パソコンを”自分で”操作できる初の汎用モデル。画面を見てクリック・入力・画面遷移までこなします。
・仕事系タスクの精度が大幅アップ。投資銀行の新人アナリスト向けの表計算ベンチマークで、前モデル（GPT-5.2）の68.4%から87.5%へジャンプ。
・ハルシネーション（AI の嘘）が約3割減少。回答全体で見てもエラーを含む割合が18%改善し、「仕事で使うにはまだ怖い」というハードルが一段下がりました。

ChatGPT Plus・Team・Proプランのユーザーには、「GPT-5.4 Thinking」として本日からロールアウトが始まっています。開発者向けにはAPIも同時公開済みです。

最大の目玉：「ネイティブ・コンピュータ操作」って何がすごい？

これまでもAIにパソコンを操作させる試みはありました。たとえばAnthropicのClaude「Computer Use」機能や、Microsoftの「Copilot Actions」がその例です。しかし多くは専用モデルや特殊なAPIを経由する必要があり、汎用チャットモデルに統合された形ではありませんでした。

GPT-5.4は、スクリーンショットの解析とマウス・キーボード操作を”モデル本体”に組み込んでいる点が画期的です。別のモデルを呼び出す必要がなく、「テキスト生成も、コード生成も、パソコン操作も全部1つのモデルで完結する」設計になっています。

ベンチマークでは人間超え

その実力を測る指標として注目されたのが、OSWorld-Verifiedというベンチマークです。これは実際のデスクトップ環境をAIにナビゲートさせるテストで、GPT-5.4は75.0%をマーク。GPT-5.2の47.3%はもちろん、人間の平均スコア（72.4%）すら上回りました。

つまり、画面のスクリーンショットだけを頼りにパソコンを操作させた場合、もはや”平均的なユーザーより上手い”ということになります。もちろんベンチマークの数字がそのまま実用性を保証するわけではありませんが、方向性として非常にインパクトのある結果です。

具体的に何ができるようになる？

たとえば次のようなシナリオが考えられます。

・「この売上データのCSVをExcelで開いて、ピボットテーブルを作り、グラフ付きのレポートをPDFで書き出して」
・「Webブラウザで航空券を検索し、条件に合うフライトをスプレッドシートにまとめて」
・「PowerPointの10ページ目のレイアウトを修正して、フォントを統一して」

こうした「人間がマウスとキーボードでやっていた一連の作業」を、テキスト指示だけで自動化できる未来がぐっと近づいた、ということです。

仕事で使う人が気になる「精度」と「ハルシネーション」

AIを業務に導入するうえで最大のボトルネックは「嘘をつくこと」でした。GPT-5.4ではこの弱点に対して、数字で示せる改善が入っています。

・個々の事実主張が誤りである確率：GPT-5.2比で33%減少
・回答全体にエラーが含まれる確率：18%減少

さらに、投資銀行の新人が行うようなスプレッドシートモデリングで約20ポイントの精度向上が確認されており、プレゼン資料の品質でも人間の評価者の68%がGPT-5.4を支持しています。

ただし「ハルシネーションがゼロになったわけではない」点は強調しておきます。仕事の最終チェックは引き続き人間が行うべきですが、「下書き→人間がレビュー」というワークフローの実用性は確実に上がりました。

コーディング面の進化──Codexとの統合がカギ

プログラミング用途でChatGPTを使っている方にも大きな変化があります。これまでOpenAIは「ChatGPT」と「Codex」を別々のツールとして提供していましたが、GPT-5.4ではこの2つが実質的に統合されました。

GPT-5.3 Codexと同等以上のコーディング性能を持ちつつ、推論の負荷が低い設定では最大1.5倍の速度向上を実現。さらに「Playwright（Interactive）」という実験的機能では、Webアプリを作りながらリアルタイムでブラウザ上の動作テストまでAI自身が行います。

フロントエンド開発での見た目の仕上がりも向上しているとのことで、「AIが書いたコードっぽさ」が薄れてきているのは開発者にとって嬉しいポイントでしょう。

100万トークンの文脈保持──「話の途中で忘れる」問題への回答

ChatGPTを長く使っていると、会話の後半で前半の指示を忘れてしまう”文脈切れ”に悩まされた経験がある方も多いはずです。GPT-5.4は100万トークン（日本語でおよそ50万〜70万文字相当）のコンテキストウィンドウを備えており、長時間の作業セッションでも一貫性を保ちやすくなっています。

加えて、複雑なタスクに取りかかる前に「計画」を先に提示してくれる新機能が加わりました。途中で方向性を修正したい場合も、最初からやり直す必要がなく、途中介入して軌道修正できます。これは長いリサーチ作業やクリエイティブ案件で特に助かる仕様です。

まとめ：「AIが作業する時代」の入り口に立っている

GPT-5.4の本質は、AIが「答える存在」から「作業する存在」へシフトし始めたことにあります。テキスト生成の品質向上はもちろん重要ですが、パソコンそのものを操作できるようになったことで、AIが私たちの「同僚」として機能する下地が整いつつあります。

まずはChatGPT上でGPT-5.4 Thinkingを選択し、普段の業務タスクを1つ試してみてください。「ここまでできるのか」という驚きが、次のワークフロー改善のヒントになるはずです。

※ 本記事の情報は2026年3月時点のものです。プランの価格や機能は変更される場合があります。最新情報はOpenAI公式サイトをご確認ください。

出典：【tom’s guide】

※サムネイル画像はスマホライフPLUS編集部が作成しています。

スマホライフPLUS編集部

スマホライフPLUSは、スマホやデジタルサービスを活用するための情報を提供するITメディアです。
iPhone・Androidの便利な使い方、SNSの活用術、キャッシュレス決済、ネット銀行、金融アプリなど、日常生活に役立つテクニックやお得な情報を紹介・レビューしています。スマホが欠かせない時代に、より賢く活用するためのヒントを独自の視点から発信しています。