multimodal-models

Installation

SKILL.md

Multimodal Models

Pre-trained models for vision, audio, and cross-modal tasks.

Model	Modality	Task
CLIP	Image + Text	Zero-shot classification, similarity
Whisper	Audio → Text	Transcription, translation
Stable Diffusion	Text → Image	Image generation, editing

Zero-shot image classification without training on specific labels.

Installs

Repository

GitHub Stars

First Seen

Jan 28, 2026

Security Audits

multimodal-models — eyadsibai/ltk