Computer Use は Qoder の能力拡張で、エージェントが人間と同じように画面を認識し、あなたのコンピューター上でクリック・入力・スクロールなどを実行できるようにします。タスクが GUI を伴い、コマンドラインや API では完結しないとき、エージェントがデスクトップアプリやブラウザを直接操作してタスクを進められます — その間、あなたは前面で別の作業を続けられます。Documentation Index
Fetch the complete documentation index at: https://docs.qoder.com/llms.txt
Use this file to discover all available pages before exploring further.
Computer Use は現在 Beta 機能です。体験や機能は継続的に改善中です。
主な機能
画面の認識
- 対象アプリのウィンドウに表示されている内容を読み取り、レイアウト・ボタンのテキスト・フォームの状態などの視覚情報を理解します。
- 操作中に継続的にスクリーンショットを取得し、ページの読み込み完了や操作の成否を確認したうえで次のステップを決定します。
キーボード・マウス操作
- クリック、ダブルクリック、ドラッグ、文字入力、ショートカットの組み合わせなど、人間が行う一通りの操作に対応します。
- 操作精度はピクセル単位で、細かな UI 要素も正確に狙えます。
バックグラウンドでの自律実行
- マウス移動、キーボード入力、スクリーンショットをバックグラウンドで完結させ、前面のフォーカスを奪いません。
- エージェントが作業している間も、あなたはコンピューターで別の作業を続けられます。
アプリ横断のワークフロー
- 複数のデスクトップアプリ間を自動で切り替え、複数ステップの操作を一連のフローとしてつなげます。
- 各ステップの結果に応じて以降の戦略を動的に調整し、固定スクリプトのような機械的な繰り返しは行いません。
使用シーン
- API のないデスクトップアプリの操作:CLI もプラグインも提供されないアプリでは、エージェントが GUI から直接操作します(例:デザインツールでのパラメータ調整、管理画面での設定一括変更)。
- アプリ横断のフロー自動化:複数のアプリ間で情報を移したり、連続したステップを実行したりする場面で、エージェントがウィンドウ切り替え・データのコピー・フォーム入力を自動で行い、エンドツーエンドのワークフローを完了させます。
- GUI 検証とテスト:UI 変更の実際の挙動を確認したり、GUI でのみ再現するバグを再現したり、特定の操作シーケンスでの動作をチェックしたりします。
- 情報の収集と整理:エクスポート機能のないアプリからデータを取り出したり、複数の画面に散在する情報を 1 か所に集約・整理したりします。
Web アプリの操作には Browser Agent を優先してください。
システム要件
- macOS 14 (Sonoma) 以降。
使い方
/computer-use を使ってこの機能を呼び出し、自然言語でタスクを記述します。エージェントのスクリーンショットと進捗はセッション内でリアルタイムに確認でき、タスクの中断や追加指示もいつでも行えます。
Editor Window はすべてのモードで Computer Use に対応します。Quest Window では Experts モードでのみ Computer Use を利用できます。
権限と承認
- アクセシビリティ(Accessibility):UI 要素ツリーの読み取りと、クリック・入力などのアクセシビリティ操作を Qoder に許可します。
- 画面収録(Screen Recording):エージェントが画面状態を認識できるよう、現在のアクティブウィンドウのスクリーンショット取得を Qoder に許可します。
- Ask every time:エージェントがデスクトップを操作するたびに確認を求めます。
- Auto-run:エージェントは確認なしでデスクトップ操作を自動実行します。
- Disabled:Computer Use を完全に無効化します。
注意事項
- 承認するとコンピューターを操作できます:有効化すると、エージェントはあなたのコンピューター上の他のアプリを操作でき、その効果はあなた自身が操作するのと同じです。不要なときは設定で無効化してください。
- 操作は取り消せない場合があります:デスクトップアプリでのエージェントの操作(メッセージ送信、ファイル削除など)は元に戻せない可能性があります。リスクの高い場面では Ask every time ポリシーの利用を推奨します。
- 画面内容はスクリーンショットされます:エージェントはスクリーンショットで画面を認識するため、画面上に映った機微情報も取得される可能性があります。自動化を開始する前に、パスワードやプライバシーデータを含むウィンドウは閉じておいてください。