About 50,800,000 results
Open links in new tab
  1. 稀疏(sparse)在机器学习中很重要吗?为什么? - 知乎

    Dec 7, 2015 · 深度学习论文中经常看到"sparse",所以应该是重要的概念,但一直不理解很困惑; 刚才在quora上的回答感觉很有帮助,尝试总结以下: sparse 代表数据为0,sparse数据的存 …

  2. 如何看待Native Sparse Attention? - 知乎

    Feb 18, 2025 · 准确率上,sparse 的模型比 full 还要搞一些。 这个我猜一点原因:(1)模型还不算大,NSA 和 full 还没遇到“瓶颈”,所以 full attention 还没摸到其上限,不能和 NSA 拉开差 …

  3. 通俗理解,Sparse Attention是什么原理? - 知乎

    通俗解释 Sparse Attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话, …

  4. Sparse Transformer - 知乎

    Sparse Transformer 减轻计算量的方式通过让连接模式作用到 上,从而减轻 的复杂度。 如式 (3)。 对于第 个时间片的输入,首先使用 Key 和 Value 的权值矩阵乘以输入特征,得到 和 。 …

  5. DeepSeek-V3.2-Exp版本更新,有哪些信息值得关注? - 知乎

    DeepSeek V3.2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。

  6. 如何理解稀疏主成分分析 (Sparse Principal Component Analysis)?

    稀疏主成分分析简介 变量经过PCA后得到的主成分通常在多个原始变量上都不为 0 ,这导致进行PCA后的主成分的含义较为模糊,给数据分析带来了一定难度,因此Zou等(2006)提出的一 …

  7. DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎

    对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3.2-Exp里面的Deepseek …

  8. 深度学习中的sparse和dense模型指的是什么? - 知乎

    Oct 19, 2017 · Sparse双塔和Dense双塔是推荐系统中使用的两种不同类型的双塔模型,它们主要的区别在于, 举个例子:以一个复杂的名词开始,比如 sparse Matchnet双塔多目标召回 …

  9. 什么是稀疏特征 (Sparse Features)? - 知乎

    要回答什么是sparse feature,可能首先要理解什么是feature。 一般在machine learning意义上,我们常说的feature,是一种对数据的表达。当然,要衡量一种feature是否是合适的表达,要根 …

  10. 贝叶斯压缩感知和稀疏贝叶斯学习有什么不同? - 知乎

    事情是这样的,Tipping于2001年发了几篇关于SBL(稀疏贝叶斯学习)的文章,也称RVM(相关向量机),见其主页 scientific publications。其中,“Sparse Bayesian Learning and the …