雅虎香港搜尋

x 限制於網站www.zhihu.com

大約 16,800 個搜尋結果

搜尋結果

Yahoo字典
loss adjuster
- 1. 損失理算員
Powered by Oxford Chinese Dictionary
www.zhihu.com › question › 59797824神经网络如何设计自己的loss function，如果需要修改或设计自己 ... 簡

www.zhihu.com › question › 59797824
- 網頁紀錄
我感觉这个方法要遍历给定的某个平面区域的loss function取值，计算应该挺费时间的，但是对判断是否收敛，应该怎么改进模型这些决策应该挺有帮助的。尤其是打某些比赛的时候可以套用这个方法试试看。基于这个方法的一些观察：有 skip connection （shortcut connection）的网络比没有 skip-connection 的网络要平滑，更容易收敛到比较好的local/global minima. 2.
www.zhihu.com › question › 294635686有哪些「魔改」loss函数，曾经拯救了你的深度学习模型？ - 知乎簡

www.zhihu.com › question › 294635686
- 網頁紀錄
2018年9月14日 · Makaay. SJTU 撸铁人工智能程序猿神经质患者. 看到很多人提到了focal loss，但是我并不建议直接使用focal loss。感觉会很不稳定，之前是在一个小的数据集上的baseline进行加了focal loss，发现有了3%的提升 (当时只看到了bestmodel的iou)，哟，感觉还不错。这就给我后面埋了很多坑，因为当时是在同一个base上分别加augmentation ,加 hard minning，还有focal loss，然后发现当我把所有的trick加到以后，发现并没有提升。我迁移到大数据以后，发现越训练越不对劲，训练的val score会波动很大（下图），甚至到了最后得时候就会出现train acc突然下降的问题。
www.zhihu.com › question › 23365122投资银行中的 CVA，DVA 和 FVA 是什么意思？ - 知乎簡

www.zhihu.com › question › 23365122
- 網頁紀錄
106,237. 6 个回答. 默认排序. 知乎用户. 2020 年度新知答主. 191 人赞同了该回答. CVA - credit valuation adjustment ,又叫counterparty credit charge. 是投行用来量化评估over the counter 衍生品违约风险的一个量，反映的是衍生品交易一方对另一方违约风险及由此导致的损失量度的估计。和传统的信用风险，如贷款违约不同， counterparty risk 是交易双方都面临的 (bilateral)，因为实际的风险品价值可能对其中的任何一方有利，且每天都在波动。对其中一方，在对方违约时只有衍生品价值对其为盈利时（exposure 为正）时才会有loss。
www.zhihu.com › question › 52398145机器学习中的目标函数、损失函数、代价函数有什么区别？ - 知乎簡

www.zhihu.com › question › 52398145
- 網頁紀錄
首先给出结论：损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，对于目标函数来说在有约束条件下的最小化就是损失函数（loss function）。举个例子解释一下:（图片来自Andrew Ng Machine Learning公开课视频）上面三个图的函数依次为 f_ {1} (x) , f_ {2} (x) , f_ {3} (x) 。我们是想用这三个函数分别来拟合Price，Price的真实值记为 Y 。我们给定 x ，这三个函数都会输出一个 f (X) ,这个输出的 f (X) 与真实值 Y 可能是相同的，也可能是不同的，为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度，比如：
www.zhihu.com › question › 638766873深度学习中，loss下降的快慢或者曲率（但最后收敛在同一水平）会 ... 簡

www.zhihu.com › question › 638766873
- 網頁紀錄
2024年1月9日 · 74. 被浏览. 25,280. 5 个回答. 默认排序. 虚无. huanranchen.github.io. 521 人赞同了该回答. 我的第一个paper就是以此为motivation的！我在偶然中观察到两组实验，虽然最后收敛的水平相同，但一个下降快一个下降慢，下降慢的效果却好，为什么呢？首先肯定不是因为优化的问题，因为二者最后收敛到的 loss 是相同的，那么只能说明是泛化的问题，即在测试集上，后者的泛化性更好。那为什么下降速率会导致泛化性的问题呢？于是我提出了第一个猜想，loss下降速率快，那么就会收敛到 sharp 的地方；loss下降速率慢，就会收敛到flat的区域。
www.zhihu.com › question › 468856872能否简单说明 PyTorch 所支持的损失函数定义与使用场景（选4个） ... 簡

www.zhihu.com › question › 468856872
- 網頁紀錄
损失函数就是用来表示预测与实际数据之间的差距程度。一个最优化问题的目标是将损失函数最小化，针对分类问题，直观的表现就是分类正确的样本越多越好。在回归问题中，直观的表现就是预测值与实际值误差越小越好 [1]。首先，列举目前所有PyTorch所支持的损失函数 [2]：问：请查看Pytorch所支持的损失函数，并选择其中4个损失函数并解释说明每个损失函数的定义以及什么情况下需要用到它们。接着，如题，此处选择： 04-nn.CTCLoss 、15-nn.HuberLoss、19-nn.CosineEmbeddingLoss、20-nn.MultiMarginLoss 这四个损失函数进行展开。
www.zhihu.com › question › 636083925生成式语言模型的微调，是怎么计算损失函数的，和transformer预 ... 簡

www.zhihu.com › question › 636083925
- 網頁紀錄
2023年12月22日 · 5. 被浏览. 2,662. 4 个回答. 默认排序. 牧羊人. 浙江大学信息与通信工程硕士在读. 2 人赞同了该回答. 一样的，不管是 loss函数，还是label的shift，统统一样. 不同的是sft的时候mask掉了query. 具体可以见文章： zhuanlan.zhihu.com/p/67. 编辑于 2024-01-28 04:19. 极言者. 探索未知，无限进化！谢邀 @mmj. 13 人赞同了该回答. 在回答这个问题之前，我想要强调一点的是，微调阶段是在预训练基础上进行的！ 1、微调过程：数据准备：在微调时，你会有一组特定的训练数据，这些数据通常包括输入（问题）和期望的输出（回答）。拼接：接下来拼接输入输出：我们吧问题和答案拼接起来，让模型知道问题是什么？

12 3 4 5
下一頁