雅虎香港 搜尋

搜尋結果

  1. 90 人赞同了该回答. 首先呢,你Loss 收敛趋势图 中的“毛刺”并不是真正的毛刺,问主这种属于loss跑飞了,loss跑飞的在小模型中(ResNet50/151,MobileNet等)最重要的原因是遇到 脏数据 。 数据的异常会导致Loss不连续,甚至计算错误,通过 loss scale 来进行控制loss的范围。 不过呢,一般来说,除掉脏数据问题,对于小模型来说训练的过程出现毛刺的情况并不多,至少ZOMI训练过很多模型,还没有遇到过小模型会出现“毛刺”的情况。 反而大模型在长稳的训练过程中,会出现“毛刺”的情况,而且这种情况呢,在微调的后期或者 模型收敛 的后期会比“预训练”阶段更为明显。

  2. 深度学习网络训练 过程中,loss 曲线是否正常是一个常见的关注点。本文从不同的角度分析了loss 曲线出现尖峰的可能原因,以及如何解决这一问题。同时,还提供了一些相关的知乎问题和专栏文章,供读者参考和学习。

  3. 2019年8月19日 · 一般来讲这种问题是因为 loss 没有根据数据大小进行归一化(即图片的长乘以宽),loss 的物理意义是总损失函数,而不是 像素平均损失函数 ,一般这种情况下的优化器学习率都会比较小。 发布于 2019-08-19 19:54. 知乎用户. 4 人赞同了该回答. 只有loss有明显下降就可以, 语义分割 的loss没有归一化,一般都比较大,你可以人为的把loss归一化,看看每个像素点的 loss 有多大,这样可以评估一下模型的 分类误差. 发布于 2019-10-29 19:35. 刘延磊. 1 人赞同了该回答. 下降了LOSS. 发布于 2021-11-26 01:28. 共产主义接班人. 你好! 请问您解决了吗 我的loss也是特别巨大 又不知道数据集哪里出现了问题.

  4. 2024年1月9日 · 74. 被浏览. 25,280. 5 个回答. 默认排序. 虚无. huanranchen.github.io. 521 人赞同了该回答. 我的第一个paper就是以此为motivation的! 我在偶然中观察到两组实验,虽然最后收敛的水平相同,但一个下降快一个下降慢,下降慢的效果却好,为什么呢? 首先肯定不是因为优化的问题,因为二者最后收敛到的 loss 是相同的,那么只能说明是泛化的问题,即在测试集上,后者的泛化性更好。 那为什么下降速率会导致泛化性的问题呢? 于是我提出了第一个猜想,loss下降速率快,那么就会收敛到 sharp 的地方;loss下降速率慢,就会收敛到flat的区域。

  5. 知乎用户. 381 人赞同了该回答. 最近看的这篇是 Loss Visualization 的工作,对不同模型的比较,不同参数选择等问题比较有帮助。. Visualizing the Loss Landscape of Neural Nets Visualizing the Loss Landscape of Neural Nets. 这篇文章主要提出了一种对 loss function 的 2D visualization 技巧 ...

  6. 2020年10月28日 · 发布于 2020-10-28 20:06. 赵明明. 演绎推理-化繁为简-深入浅出. 思路是这样的: 设置小一些, 然后再根据训练情况逐步加大。 不过这个思路代码不容易实现, 这个思路的本质把 目标分解 ,不是一步到位,而是逐步的训练到我们需要的margin上。 所以,我们除了改变 loss ,还可以改变训练的样本。 具体实现的思路是:用具有较大margin的样本去修改模型,较少margin的 三元组 先不参与训练。 等较大margin的样本把模型训练差不多时,因为模型有更新,所以原来 margin 小的样本应该会变得稍微大一些了,这些样本就又可以参与到训练中来了。 发布于 2020-10-28 20:24.

  7. loss = \left\ { \begin {gathered} mean\left ( L \right),& reduction = 'mean'; \\ sum\left ( L \right),& reduction = 'sum'; \\ \end {gathered} \right. \tag {12} 使用 pos_weight 增加某一类别中正例样本的权重,可以平衡模型的 召回率 (recall)和精确度(precision)。. 例如,在多分类情况下,添加了 pos ...

  1. 其他人也搜尋了