👉🏻 MER-Factory 👈🏻
您用于构建多模态情绪识别与推理 (MERR) 数据集的自动化工厂
🚀 项目路线图
MER-Factory 正在积极开发中,新功能会定期添加 - 查看我们的路线图,欢迎贡献!
快速概览
MER-Factory 是一个基于 Python 的开源框架,专为情感计算社区设计。它通过提取多模态特征并利用大型语言模型 (LLM) 生成详细分析和情感推理摘要,从而自动化创建用于训练多模态大型语言模型 (MLLM) 的统一数据集。
🚀 核心功能
- 多管道架构: 支持 AU、音频、视频、图像和完整的 MER 处理
- 灵活的模型集成: 支持 OpenAI、Google Gemini、Ollama 和 Hugging Face 模型
- 可扩展处理: 对大型数据集进行异步/并发处理
- 科学基础: 基于面部动作编码系统 (FACS) 和最新研究
- 易用的 CLI 界面: 简单的命令行用法和全面的选项
📋 处理类型
管道 | 描述 | 用例 |
---|---|---|
AU | 面部动作单元提取与描述 | 面部表情分析 |
Audio | 语音转录与音调分析 | 音频情绪分析 |
Video | 全面的视频内容描述 | 视频情绪分析 |
Image | 静态图像情绪识别 | 基于图像的情绪分析 |
MER | 完整的多模态管道 | 完整的情感推理数据集 |
📖 输出示例
查看 MER-Factory 生成的真实示例:
架构概览
- CLI 框架: 基于 Typer 构建,提供强大的命令行界面,简化用户操作。
- 工作流管理: 使用 LangGraph 实现有状态处理管道,确保任务的高效执行。
- 面部分析: 集成 OpenFace,支持面部动作单元 (AU) 的提取与分析。
- 媒体处理: 借助 FFmpeg 实现音频和视频的高效操作。
- AI 集成: 提供可插拔架构,支持多个大型语言模型 (LLM) 提供商。
- 并发处理: 使用 Asyncio 实现异步和并行处理,优化大规模数据集的处理性能。
- 可扩展性: 设计灵活,支持未来功能扩展和新模型集成。
入门指南
准备好深入了解了吗?以下是您需要知道的内容:
- 先决条件 - 安装 FFmpeg 和 OpenFace
- 安装指南 - 设置 MER-Factory
- 基本用法 - 您的第一个情绪识别管道
- 模型配置 - 选择并配置您的 AI 模型
- 高级功能 - 探索所有功能
社区与支持
- 📚 技术文档 - 深入了解系统架构
- 🔧 API 参考 - 完整的函数和类文档
- 💡 示例 - 真实世界的使用示例和教程
- 🐛 问题与错误报告 - GitHub Issues
- 💬 讨论 - GitHub Discussions
与情感计算社区共同进步。