#VLM

3件の記事

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

ルールベースの判定が難しいタスクに対して、GRPO学習にVLMベースの主観的報酬関数を組み込む実装方法を紹介しています。スライド生成タスクを例に、HTML出力をスクリーンショット化して視覚的に評価する仕組みを構築。vLLMで報酬計算用VLMを分離し、学習ノードとの効率的な連携方法を実装コード付きで解説しており、マルチモーダルな実務タスクへの適用可能性を示しています。

#GRPO #VLM #ファインチューニング

記事を読む →

🕵️

HuggingFace5月12日· 2分で読める中級🔥 注目

Vision Language Models (Better, faster, stronger)

Vision Language Models（VLM）の過去1年の急速な進化を徹底解説する記事です。モデルは小型化しながら高性能化し、推論・動画理解・マルチモーダルRAGなど新しい機能が続々登場しています。Any-to-any model、推論特化型、軽量高性能モデル、Mixture-of-Expertsアーキテクチャなど、2025年の最新トレンドと注目モデルを詳しく紹介しており、VLM開発の最前線を理解できます。

#Vision Language Models #マルチモーダルAI #VLM

記事を読む →

🧠

HuggingFace4月29日· 1分で読める中級🔥 注目

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

Intelが開発した量子化ツール「AutoRound」は、LLMやVLMを効率的にデプロイする革新的なソリューションです。INT2での精度がベースラインの2.1倍高く、72Bモデルの量子化がA100で37分で完了。ほぼすべての主要モデルに対応し、低ビット精度での圧倒的な精度維持が実現できます。

#量子化 #LLM #VLM

記事を読む →