About 336,000 results
Open links in new tab
  1. Kaggle量化赛金牌方案全集 - 知乎

    原文链接: DRW solution 1st | Kaggle CODE:暂无 建模 通常,基于树的模型和神经网络的最终集成模型往往表现最佳。并且通常其中一种模型会占主导地位,另一种只是在集成阶段提供一 …

  2. 多层感知机是如何解决异或问题的? - 知乎

    2.2 方法2:深度神经网络(MLP) 搬出万能近似定理,“一个前馈神经网络如果具有线性输出层和至少一层具有任何一种‘‘挤压’’ 性质的激活函数的隐藏层,只要给予网络足够数量的隐藏单元, …

  3. 一文了解Transformer全貌(图解Transformer)

    Sep 26, 2025 · Transformer整体结构(输入两个单词的例子) 为了能够对Transformer的流程有个大致的了解,我们举一个简单的例子,还是以之前的为例,将法语"Je suis etudiant"翻译成英 …

  4. 如何求神经网络 (MLP)输出的期望? - 知乎

    Mar 10, 2023 · 如何求神经网络 (MLP)输出的期望? 假设全连接神经网络 (MLP)的输入X服从多元正态分布,或服从多元均匀分布,如何求全连接神经网络的输出的期望? 显示全部 关注者 5

  5. 如何看待KAN论文被NeurIPS 2024拒稿? - 知乎

    KAN号称会取代传统MLP,只要理解了MLP,再看明白KAN和MLP的区别,就能拿理解KAN。 怎么理解MLP呢? MLP就是Mulit-Layer Perceptron,就是这么一个多层的神经元网络,其中每 …

  6. embedding层和全连接层的区别是什么? - 知乎

    比如输入10000的one-hot,全连接输出128的vec,此时FC完成了Embedding的功能。后来,CV中使用CNN, NLP中使用SeqModel等都可以视作Embedding。 FC Layer组成MLP之后可以直接 …

  7. MoE (Mixture-of-Experts)大模型架构的优势是什么?为什么?

    MoE 应用于大模型,GPT-4并不是第一个。在2022年的时候,Google 就提出了MoE大模型 Switch Transformer,模型大小是1571B,Switch Transformer在预训练任务上显示出比 T5 …

  8. 只有两层的神经网络模型到底算不算深度学习? - 知乎

    只有两层的神经网络模型到底算不算深度学习? 最近看到很多题目中包括“deep learning”的论文,但一看里面的网络架构只有两三层。 对于这些模型到底应该叫MLP还是DeepLearning我… …

  9. 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎

    一个可能的原因是,它跟MQA相比似乎没有表现出什么优势 [2],反而增加了系统复杂度。 2) MoE结构,不同于Mixtral中大专家的设计(将稠密模型中的MLP结构复制8份),DeepSeek …

  10. MLP和BP的区别是什么? - 知乎

    MLP是 多层感知机,是多层的全连接的前馈网络,是而且仅仅是算法结构。输入样本后,样本在MLP在网络中逐层前馈(从输入层到隐藏层到输出层,逐层计算结果,即所谓前馈),得到最 …