每个MoA和MoE层又有8个民众,每次输入token激活2个。 “只需”10万好意思元,考核Llama-2级别的大模子。 尺寸更小但性能不减的MoE模子来了: 它叫JetMoE,来自MIT、普林斯顿等参谋机构。 性能妥妥跳跃同等边界的Llama-2。 △ 贾扬清转发 要知谈,后者但是数十亿好意思元级别的参预资本。 JetMoE发布即全齐开源,且学术界友好:仅使用公开数据集和开源代码,用虚耗级GPU就能进行微调。 不得说,大模子的打形资本,的确比东谈主们想的要低廉更多了。 Ps. Stable D