每日AI资讯-20240617 - 迷途小书童的Note迷途小书童的Note

1. Meta AI的NLLB-200登上Nature

Meta AI在社交媒体X上宣传自家的大模型NLLB，全称为No Language Left Behind，这个AI模型能够翻译200种语言，包括资源匮乏的语言，更难得的是，NLLB模型可以免费提供给非商业用途。
这项研究刊登在了本周的Nature上，题为Scalling neural machine translations to 200 languages。

在全世界范围内，大约有7000种语言，有一半被认为面临灭绝，NLLB模型最大的价值在于，它提供了一种扩大资源匮乏型语言机器翻译规模的方法，这些资源匮乏的语言几乎没有可获取的数字资源。

2. 37项SOTA！全模态预训练范式MiCo

港中文、中科院等提出了一种大规模的全模态预训练范式，称为多模态上下文MiCo（Multimodal Context），它可以在预训练过程中引入更多的模态，数据量，模型参数。
在18种多模态大模型问答基准测试中，MiCo斩获10项SOTA

项目网站：https://invictus717.github.io/MiCo/
开源代码：https://github.com/invictus717/MiCo
Hugging Face模型：https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K

3. 北大快手攻克复杂视频生成难题

北大与快手联合提出新框架VideoTetris，就像拼俄罗斯方块一样，轻松组合生成高难度、指令超复杂的视频。在复杂视频生成任务中，超过了Pika，Gen-2等一众商用模型。

Videotetris首次定义组合视频生成，包括跟随复杂组合指令的视频生成和跟随递进的组合式多物体指令的长视频生成。经团队测试发现，几乎所有开源模型，包括商用模型在内都未能生成正确的视频。而Videotetris则表现不错。
另一方面，VideoTetris 框架使用了时空组合扩散方法，将一个提示词首先按照时间解构，为不同的视频帧指定好不同的提示信息。