Qiita· 2分で読める中級🔥 注目
MolmoWeb入門 — スクリーンショットだけでWebを操作するオープンソースAIエージェント
Ai2が公開したMolmoWebは、スクリーンショットだけでブラウザを操作するオープンソースのビジュアルエージェントです。HTMLやDOMを一切使わないシンプル設計で、WebVoyagerベンチマークで78.2%を達成し、GPT-4oベースのエージェントを上回ります。4B/8Bパラメータ、36K人間デモ+59万サブタスクの訓練データ、全コードがApache 2.0で公開され、ローカルでPython APIから数行で実行可能です。