StableLM

17小时前发布 3 0 0

探索 StableLM,Stability AI 持续开发的语言模型系列。涵盖 StableLM - 3B - 4E1T、StableLM - Alpha v2 等多种模型,具备多领域应用能力,在零样本评估中表现出色,推动语言模型发展。

收录时间:
2025-08-07
StableLMStableLM

产品介绍

 

StableLMStability AI 正在持续开发的一系列语言模型,该项目的代码仓库会不断更新新的模型检查点。这个系列模型旨在提供强大的语言理解和生成能力,以满足不同场景下对自然语言处理的需求。目前,该系列已经推出了多个版本的模型,包括 StableLM – 3B – 4E1T、StableLM – Alpha v2、StableLM – Alpha、StableVicuna 等,每个模型在参数规模、训练数据、适用场景等方面都有各自的特点。

功能与优势亮点

 

  1. 多模型版本选择:提供了多种不同参数规模的模型,如 30 亿参数的 StableLM – 3B – 4E1T 和 70 亿参数的 StableLM – Alpha – 7B – v2 等,用户可以根据自身需求和计算资源选择合适的模型。
  2. 架构优化:以 StableLM – 3B – 4E1T 为例,该模型采用了解码器 – 仅变压器架构,类似于 Llama 架构,但进行了多项改进。例如,使用旋转位置嵌入应用于前 25% 的头部嵌入维度以提高吞吐量,采用带有学习偏置项的 LayerNorm 归一化方法,使用 GPT – NeoX 分词器等,提升了模型的性能和效率。
  3. 高质量训练数据:模型训练使用了经过筛选的开源大规模数据集的混合,如 Falcon Refined Web Extract、Red Pajama – Data、The Pile 和 StarCoder 等。特别是 StableLM – Alpha v2 模型,通过使用更高质量的数据源和混合方式,显著提高了下游任务的性能。
  4. 良好的零样本评估表现:在零样本评估中,StableLM – 3B – 4E1T 在 30 亿参数规模的开源模型中达到了最先进的性能,甚至与许多流行的当代 70 亿参数模型具有竞争力,部分指标超过了最新的 70 亿参数的 StableLM – Base – Alpha – v2。
  5. 多领域应用能力:从代码中的示例可以看出,StableLM – Tuned – Alpha 能够处理多种类型的任务,包括闲聊、正式写作、创意写作(如说唱歌曲创作、虚构故事编写)、幽默问答以及代码编写等,展现了其在不同领域的强大应用潜力。

应用场景 / 案例 / 用户评测

 

  1. 应用场景
    • 自然语言交互:可用于构建聊天机器人,实现与用户的自然流畅对话,如在闲聊场景中,能够理解用户意图并给出合理回应。
    • 内容创作:支持正式写作(如邮件撰写)、创意写作(如故事创作、说唱歌曲创作)等,为内容创作者提供灵感和辅助。
    • 代码生成:可以根据用户需求生成代码,例如生成 Python 程序来解决斐波那契数列问题,辅助开发人员提高编程效率。
  2. 案例
    • 闲聊场景:用户与 StableLM – Tuned – Alpha 进行关于为奶奶计划惊喜访问的对话,模型能够根据用户的需求提供合理的建议,如礼物选择、解决方案等。
    • 正式写作场景:根据用户要求,生成给高中毕业朋友的邮件,表达对朋友的祝贺和鼓励。
    • 创意写作场景:创作出关于深度神经网络和符号 AI 的说唱战斗歌曲,以及程序员爱上深度神经网络的虚构故事。
  3. 用户评测:文档中未提供具体的用户评测,但从模型的功能和性能表现来看,其在多个领域的应用能力和良好的评估结果表明它具有较高的实用价值。不过,像其他预训练大语言模型一样,在未进行额外微调的情况下,可能会存在输出质量不稳定、包含冒犯性语言和观点等问题,需要进一步优化。

竞品对比

 

与其他流行的语言模型如 Meta 的 Llama – 2 – 7B、MosaicML 的 MPT – 7B、OpenLM Research 的 OpenLlama – 7B – v2 等相比,StableLM 系列模型在某些方面具有竞争力。例如,StableLM – 3B – 4E1T 在零样本评估中的平均得分表现良好,在部分指标上超过了一些 70 亿参数的模型。然而,不同模型也有各自的优势,如 Llama – 2 – 7B 在某些任务上的表现更为突出。具体对比如下:

 

模型名称 ARC Challenge(✱) ARC Easy(✱) BoolQ Hellaswag(✱) Lambada OpenAI Open Book QA PIQA SIQA TruthfulQA(▲) WinoGrande 平均
Meta – Llama / Llama – 2 – 13B – hf 48.63 79.50 80.52 79.36 76.77 35.40 79.05 94.50 71.77
HuggyLlama / Llama – 7B 41.89 75.25 75.05 76.22 73.55 34.40 78.67 94.60 68.84
Meta – Llama / Llama – 2 – 7B – hf 43.00 76.26 77.74 75.94 73.47 31.40 77.75 43.50 38.97 69.61 60.91
StabilityAI / StableLM – 3B – 4E1T 37.80 72.47 75.63 73.90 70.64 31.40 79.22 94.80 66.93
StabilityAI / StableLM – Base – Alpha – 7B – v2 40.53 69.11 70.31 74.27 74.19 30.40 78.45 42.43 36.46 68.82 58.50

操作体验

 

从代码示例可以看出,使用 StableLM 进行推理相对简单。用户可以通过 Hugging Face Hub 获取模型,利用transformers库进行加载和调用。例如,使用以下代码可以与 StableLM – Tuned – Alpha – 7B 进行交互:

 

python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList

tokenizer = AutoTokenizer.from_pretrained("stabilityai/stablelm - tuned - alpha - 7b")
model = AutoModelForCausalLM.from_pretrained("stabilityai/stablelm - tuned - alpha - 7b")
model.half().cuda()

class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        stop_ids = set([50278, 50279, 50277, 1, 0])
        return input_ids[0][-1] in stop_ids

system_prompt = """ <|System|> # StableLM Tuned (Alpha version)
- StableLM is a helpful and harmless open - source AI language model developed by Stability AI.
- StableLM is excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- StableLM is more than just an information source, StableLM is also able to write poetry, short stories, and make jokes.
- StableLM will refuse to participate in anything that could harm a human.
"""
prompt = f"{system_prompt}<|User|>what's your mood today? <|Assistant|> "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
tokens = model.generate(
    **inputs,
    max_new_tokens = 64,
    temperature = 0.7,
    do_sample = True,
    stopping_criteria = StoppingCriteriaList([StopOnTokens()])
)
print(tokenizer.decode(tokens[0], skip_special_tokens = True))

 

这种方式降低了用户使用模型的门槛,具有较好的操作体验。

常见问题

 

  1. 输出质量不稳定:作为预训练大语言模型,在未进行额外微调的情况下,用户得到的回复质量可能会有所不同,可能包含不准确或不完整的信息。
  2. 潜在的冒犯性内容:可能会输出包含冒犯性语言和观点的内容,这需要通过进一步的优化,如使用更好的数据、社区反馈和强化学习等方法来改进。
  3. 特定问题回答错误:在处理一些特定问题时,如齿轮旋转问题,模型可能会给出错误的答案,说明其在复杂逻辑推理方面还有待提高。

最新动态

 

  • 发布了基于 CC BY – SA – 4.0 许可的 StableLM – 3B – 4E1T 模型。
  • 发布了具有 30 亿和 70 亿参数的修补后的 StableLM – Alpha v2 模型。
  • 发布了 StableVicuna – 13B,这是对 Vicuna – 13B v0 的 RLHF 微调版本,其相对于原始 Llama 模型的增量权重基于 CC BY – NC – SA – 4.0 许可发布。
  • 发布了初始版本的 StableLM – Alpha 模型,具有 30 亿和 70 亿参数,基础模型基于 CC BY – SA – 4.0 许可发布。

数据统计

相关导航