FSMBench

university

AI & ML interests

Evaluating and Benchmarking Large Multimodal Models

Recent Activity

taesiri submitted a paper about 15 hours ago

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

taesiri submitted a paper about 15 hours ago

PACE: A Proxy for Agentic Capability Evaluation

taesiri submitted a paper about 15 hours ago

Representation Distribution Matching for One-Step Visual Generation

View all activity

FSMBench 's models

None public yet