何恺明最近在香港中文大学参加一个讲座过程中所述:
1. 大模型的未来:数据效益是个问题
Q:您刚刚(演讲)展示的图片,呈现了深度网络加深时,性能先上升后下降的趋势。
起初人们可能误认为是过拟合导致的,就增加数据量,问题确实得到了改善。但又发现当神经网络真的非常深入时,性能还是会再次下降。而你的研究揭示了这其实与某种优化并不是最佳解决方案有关,基本上涉及三大要素:数据量、网络深度、模型复杂度及其优化方式。
考虑到现如今的大模型数据量比以前要大得多,那么您认为可能存在哪些局限性?或者接下来应该如何应对数据模型复杂性和优化带来的挑战?
何恺明:通常,我们认为增加网络的深度和宽度是提高神经网络模型性能的方法。而在机器学习中,拟合与泛化之间存在权衡,也就是说要实现适当的拟合并减少过拟合。
目前要想减少过拟合、提高泛化,最有效的方法就是增加数据量。
虽然大量数据的拟合和记忆仍是一个挑战,但大模型其实有足够的能力做到这一点,事实也证明增加数据量是减少过拟合的最佳解决方案。
然而展望未来,数据带来的效益是否会降低是个问题。
比如说,语言数据不是凭空产生的,而是由人类创造出来的。你在写一些新的文本时,是带有想分享信息、创作新知识等某种目的的。所以文本数据中的信息可能比许多其它形式的数据中的信息都要更丰富。
而一张新的照片可能并不会增加太多新的信息。尽管它看起来可能包含更多的信息,但实际上你每天用手机拍摄的内容也许只是你的食物或是自拍。文章来源:https://www.toymoban.com/news/detail-740515.html
所以不同类型的数据所含信息量不同,继续增加数据的回报可能会有所减少。我认文章来源地址https://www.toymoban.com/news/detail-740515.html
到了这里,关于何恺明:在cuhk解答科研问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!