【大模型的一些基本结论】

news/2024/7/24 7:44:09 标签: 深度学习

这里写自定义目录标题

  • LLama的一些基本结论

各个论文中给出一些观察显现,我们比摘要更简略地摘要一些文本大模型大佬地基本结论和观察到的现象

LLama的一些基本结论

由于大模型要作为服务,因而推理时间更重要。一个较小的、训练时间较长的模型最终会在推理中更便宜

在这里插入图片描述

主要流程
预归一化[GPT3]:为了提高训练的稳定性,我们对每个transformer子层的输入进行归一化,而不是对输出进行归一化。我们使用Zhang和Sennrich(2019)介绍的RMSNorm归一化函数。

SwiGLU激活函数[PaLM]:我们用SwiGLU激活函数取代ReLU非线性,由Shazeer(2020)介绍,以提高性能。我们使用2/3 4d的维度,而不是PaLM中的4d。

旋转嵌入[GPTNeo]:我们删除了绝对位置嵌入,取而代之的是在网络的每一层添加Su等人(2021)介绍的旋转位置嵌入(RoPE)。我们不同模型的超参数细节见表2。

附录:
某些名词解释

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。

归一化函数RMSNorm
激活函数SwiGLU
位置嵌入RoPE
优化器AdamW

评测基准
MMLU Benchmark (Multi-task Language Understanding)多任务知识理解能力,涵盖数学、计算机、人文科学。 GPT4载-shot上 86%
BIG-bench 有204个任务,语言学,常识推理、数学、生物、物理等。
65% 的任务中超过人类。
HELM Holistic Evaluation of Language Models 综合测评,16个核心场景,7类指标


http://www.niftyadmin.cn/n/5115529.html

相关文章

10 创建型模式-原型模式

引言: 创建对象的五种方式: 通过new关键字通过Class类的newInstance()方法通过Constructor类的newInstance()方法利用Clone方法反序列化 Clone方法: 其实现方式正是通过调用 Object 类的 clone() 方法来完成。 protected native Object cl…

【第三天】C++类和对象进阶指南:从堆区空间操作到友元的深度掌握

一、new和delete 堆区空间操作 1、new和delete操作基本类型的空间 new与C语言中malloc、delete和C语言中free 作用基本相同 区别: new 不用强制类型转换 new在申请空间的时候可以 初始化空间内容 2、 new申请基本类型的数组 3、new和delete操作类的空间 4、new申请…

公司第一天——配置环境

1.配置jdk环境 jdk的配置环境 配置jdk 遇到的问题 C:\Program Files\Common Files\Oracle\Java\javapath C:\Program Files (x86)\Common Files\Oracle\Java\javapath这两个文件 中的要删除,不然全费费(有覆盖的情况) 2.配置node 配置 N…

Python处理路径神级命令pathlib.Path

我最早是从2017年开始使用Python的,初期从处理文件数据开始,多数情况下与各式各样的路径和文件操作打交道,一直使用import os下面的os.path.join等函数拼接路径。 最近在读新的Python代码的时候,发现已经有一些人采用pathlib.Path…

数据安全与PostgreSQL:最佳保护策略

在当今数字化时代,数据安全成为了企业不可或缺的一环。特别是对于使用数据库管理系统(DBMS)的组织来说,确保数据的完整性、保密性和可用性至关重要。在众多DBMS中,PostgreSQL作为一个强大而灵活的开源数据库系统&#…

js如何解决跨域问题?

🙂博主:锅盖哒 🙂文章核心:js如何解决跨域问题? 目录 前言:跨域问题的本质 详解:跨域问题的原因和限制 跨域问题的限制包括: 用法:解决跨域问题的方法 1. JSONP(J…

Java方法调用动态绑定(多态性)详解

CONTENTS 1. 方法调用绑定2. 尝试重写Private方法3. 字段访问与静态方法的多态4. 构造器内部的多态方法行为 1. 方法调用绑定 我们首先来看下面这个例子: package com.yyj;enum Tone {LOW, MIDDLE, HIGH; }class Instrument {public void play(Tone t) {System.ou…

Excel多线程导入数据库

文章目录 Excel多线程导入数据库1. CountDownLatch2.多线程导入数据库 Excel多线程导入数据库 书接上文 Excel20w数据5s导入 1. CountDownLatch CountDownLatch 维护了一个计数器,初始值为指定的数量。当一个或多个线程调用 await() 方法时,它们会被阻…