-
秋叶Lora炼丹炉 – AI模型训练一键包,人人都可以当炼金术士
一、Lora是什么? LORA是Low-Rank Adaptation的缩写,最早在2021年论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出。是一种大语言模型低秩适配器,简单来说就是它可以降低模型可训练参数,使其尽量不损失模型表现的大模型微调方法,在此之前,StableDiffusion只能通过使用Dreambooth的方法训练大…- 0
- 0
- 3.4k
-
Grok-1 – 马斯克xAI的开源大模型,正式反击!3140亿参数迄今最大,权重架构全开放,免费可商用~
说到做到,马斯克承诺的开源版大模型 Grok 终于来了! 今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。 这也使得Grok-1成为当前参数量最大的开源大语言模型。 一、Grok-1是什么? Grok-1 是 xAI 开发的基于大型语言模型的生成式人工智能聊天机器人。它是埃隆·马斯克 (Elon Musk)…- 0
- 0
- 881
-
Jamba – 首个基于Mamba架构的生产级别大语言模型,AI21 Labs开源
首次推出基于 Mamba 的生产级模型,提供一流的质量和性能。 一、Jamba是什么? Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构。而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量…- 0
- 0
- 1k