About 753,000 results
Open links in new tab
  1. Why do we use ReLU in neural networks and how do we use it?

    Why do we use rectified linear units (ReLU) with neural networks? How does that improve neural network? Why do we say that ReLU is an activation function? Isn't softmax activation function …

  2. 谈谈神经网络中的非线性激活函数——ReLu函数 - 知乎

    Jan 29, 2024 · 从ReLU函数及其表达式可以看出,ReLu其实就是一个取最大值的函数。 在输入是负值的情况下,其输出为0,表示神经元没有被激活。 这意味着在网络的前向传播过程中,只 …

  3. RELU只是把负数变成0,为什么可以作为激活函数?激活函数的本 …

    ReLU的数学本质——为什么简单反而最强大 2022年秋天,我在准备一个技术分享时,深入研究了ReLU的数学原理,这彻底改变了我对"简单"的看法。

  4. machine learning - What are the advantages of ReLU over sigmoid ...

    The state of the art of non-linearity is to use rectified linear units (ReLU) instead of sigmoid function in deep neural network. What are the advantages? I know that training a network …

  5. 「ReLU」如何发音? - 知乎

    Jul 6, 2016 · 我看 cs231n 的时候 Andrej 把这个读为re lu。re就是do re mi里的re,lu就是噜啦。

  6. 为什么现在的大模型要高精度跑GeLU或SwiGLU,而不是改回ReLU …

    这个问题其实非常有意思,因为它涉及 大模型的计算精度和激活函数的选择背后的权衡,尤其是在最近量化热潮和硬件资源优化的大背景下。 首先明确一点: 现在主流的大模型,普遍采 …

  7. 在训练神经网络时,为什么大多数情况下在隐藏层使用ReLU而不是 …

    在输出层使用ReLU的主要问题是其 输出值范围不受限制,可能会导致输出的值过大或过小,不利于训练和优化。 因此,一般情况下在输出层会使用其他的激活函数,如 sigmoid 或 softmax, …

  8. 为什么说Relu是非线性激活函数,在大于0部分不是线性的吗?

    一、图像分析 首先,单看Relu函数的左边或者右边,确实是线性的,整体来看,也确实是分段函数,说它是非线性函数也勉强说得过去,但为什么应用到神经网络里面就成了非线性激活函数 …

  9. 如何评价 Meta 新论文 Transformers without Normalization? - 知乎

    虽然没有梯度消失问题了,但sigmoid的性能还是不如relu 当时普遍的观点是:有了ReLU+Batch Norm等一系列工作,神经网络的梯度消失问题被彻底解决了,神经网络不再难训练,不再需 …

  10. RNN 中为什么要采用 tanh,而不是 ReLU 作为激活函数? - 知乎

    RNN 中一个经典的问题是如果避免梯度消失?造成这个问题的一个很重要原因是采用了 tanh 作为激活函数,很…