About 50 results
Open links in new tab
  1. 大模型 (LLM) 中常用的 Normalization 有什么? - 知乎

    LayerNorm 其实目前主流的 Normalization 有个通用的公式 其中, 为均值, 为归一化的分母,比如对 LayerNorm 来说他是标准差,对 WeightNorm 来说是 L2 范数。 和 为可学习的参数,可 …

  2. 如何理解Normalization,Regularization 和 standardization?

    May 16, 2017 · 如何理解Normalization,Regularization 和 standardization? 我知道的是:normalization和standardization是降低极端值对模型的影响. 前者是把数据全部转成从0-1; …

  3. 如何评价 Meta 新论文 Transformers without Normalization?

    Normalization这个事得好好掰扯掰扯。 上古时期,网络经常在初始几个iteration之后,loss还没下降就不动,必须得把每一层的gradient与weight的比值打印出来,针对性地调整每一层的初始 …

  4. 如何理解归一化(Normalization)对于神经网络(深度学习)的帮 …

    Normalization对于数值以及类别特征的 EMbedding的影响 从上面的实验中,我们发现, 对数值的EMbedding使用LayerNorm相关的效果更好,对数值特征使用LayerNorm相关的正则化方法, …

  5. 深度学习中 Batch Normalization为什么效果好? - 知乎

    Normalization是一个统计学中的概念,我们可以叫它 归一化或者规范化,它并不是一个完全定义好的数学操作 (如加减乘除)。 它通过将数据进行偏移和尺度缩放调整,在数据预处理时是非常 …

  6. CNN为什么要用BN, RNN为何要用layer Norm? - 知乎

    Normalization 不管是 Batch Normalization 还是 Layer Normalization, Normalization的目的是为了把输入转化成均值为0方差为1的数据。 换句话说,这里的 Normalization 其实应称为 …

  7. 标准化和归一化什么区别? - 知乎

    缩放到0和1之间,保留原始数据的分布(Normalization—— Normalizer ()) 1就是常说的z-score归一化,2是min-max归一化。 举个例子来看看它们之间的区别,假设一个数据集包括「身高」 …

  8. transformer 为什么使用 layer normalization,而不是其他的归一化 …

    当然这都是瞎猜,不过有一个间接性的证据是,文章《Root Mean Square Layer Normalization》说将LN换成RMS Norm后效果会变好,而RMS Norm比LN更像L2 Normalzation。

  9. l1正则与l2正则的特点是什么,各有什么优势? - 知乎

    理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自然,有L1、L2便也有L0、L3等等。因为在机器学习领域,L1 和 L2 范数应用比较多,比如作为正则项在回归中的使用 Lasso …

  10. 一文了解Transformer全貌(图解Transformer)

    Sep 26, 2025 · Transformer整体结构(引自谷歌论文) 可以看到Encoder包含一个Muti-Head Attention模块,是由多个Self-Attention组成,而Decoder包含两个Muti-Head Attention。Muti …