画像を見て質問に答えられるオープンソースなGPT-4レベルのAI「LLaVA-1.5」をGCP上で動作させてみた
画像を見て質問に答えられるオープンソースなGPT-4レベルのAI「LLaVA-1.5」をGCP上で動作させてみた Microsoftやウィスコンシン大学マディソン校などの研究チームが開発し、2023年4月17日に公開した「LLaVA」は「視覚」を持つAIで、画像を入力するとその画像に基づいて返答を行うことができます。2023年10月5日に登場したLLaVA-1.5はさらにクオリティが向上しているとのことなので、実際にGoogleのクラウドコンピューティングサービス「Google Cloud Platform(GCP)」上で動作させてみました。 LLaVA/pyproject.toml at m