Webwrightとはどんなフレームワークか
Microsoft Researchが公開したWebwrightは、一言でいうと「ブラウザをコードで操る自動化エージェント」です。従来のWebエージェントは、ブラウザのセッション状態をそのまま保持しながらページ上の要素をクリック・入力するアプローチが主流でした。しかしWebwrightはその考え方を少し変えて、エージェントがターミナル上でPlaywrightコードを書き、実行してログを確認し、うまくいかなければコードを修正してまた試す、という反復サイクルを中心に設計されています。
残るのはブラウザセッションではなく、ローカルのワークスペースに保存されたコードとログです。これによって、同じ処理を別のタイミングで再実行したり、過去のログを参照して問題を特定したりといったことが、従来より格段にやりやすくなっています。コード全体は約1,000行のハーネスコードで構成されており、Runner・Model Endpoint・Terminal Environmentという3つのモジュールが単一のエージェントループを動かしています。技術的なシンプルさを保ちながら、高い柔軟性を実現している点は評価できるところです。
ベンチマーク評価での結果
Webwrightの性能を示す数字として、2つのベンチマーク結果が公開されています。Online-Mind2Webでは86.7%、Odysseysでは60.1%を達成しています。特にOdysseyの結果が注目されていて、GPT-5.4を使った場合、従来の最高水準だった44.5%を大きく上回りました。ベーススコアの33.5%と比べると26.6ポイントの向上で、相対的な改善率は35.1%とされています。
ただし、ここで一点気をつけておきたいのは、これらの数字はGPT-5.4を組み合わせた結果だという点です。他のモデルで同じように動かしたとき、同水準のパフォーマンスが出るかどうかは現時点では不明です。ベンチマーク上の数字が実務でそのまま再現されるとは限りませんが、少なくとも設計の方向性として、反復的なコード生成アプローチが有効であることは示されたといえます。
従来の方法と何が違うのか
これまでのWebエージェントは、ページを表示してボタンを押す・テキストを入力するといった操作を1ステップずつ予測・実行する方式が一般的でした。この方式は直感的で理解しやすい反面、長く複雑なタスクになるほど途中でエラーが起きやすく、どこで失敗したかを追いにくいという課題がありました。
Webwrightのアプローチは、この課題に対してコードとログという「証跡」を残すことで応えています。たとえばECサイトから商品情報を一括取得するスクリプトを書く場合、従来なら毎回ブラウザ操作を1から繰り返す必要がありましたが、Webwrightではコードが手元に残るので、次回は修正だけで済みます。QAや自動化エンジニアにとっては、デバッグのサイクルが短くなるという実務上のメリットを感じやすいはずです。
またPlaywrightはChromium・Firefox・WebKitに対応しているため、ブラウザの互換性テストを自動化したい場面でも使い道があります。コーディングの知識が必要な点でハードルはありますが、すでにPlaywrightを使い慣れているエンジニアにとっては、学習コストは比較的低いといえます。
フリーランスへの影響
Webwrightが直接フリーランス全員に関係するかというと、正直なところそうではありません。コードを書けるエンジニア・自動化担当者向けのツールであり、ノーコードで使えるものではないからです。ただ、Web上のデータ収集・定期的なフォーム送信・複数サイトにわたる操作の自動化といった案件を受けているフリーランスエンジニアにとっては、手元のスクリプト資産として活用できる可能性があります。
特に、クライアントから繰り返し発生するブラウザ操作タスクを任されている方には、試す価値があるかもしれません。一度コードを書いてしまえばログも残るので、「先月やった処理をまたやってほしい」という依頼にも素早く対応しやすくなります。作業時間の短縮という観点では、うまくハマればかなりの効果が期待できます。
一方で、現時点では日本語対応・料金・利用可能地域のいずれも明確になっていません。オープンソースなので費用面のハードルは低いと思われますが、本番環境で使うにはもう少し情報が出揃ってから判断する方が安全です。

コメント