روشی به اسم Weight Watcher تو AI هست که بدون نیاز به داده، لایههای شبکه عصبی رو تحلیل میکنه.
با این روش تو مدل DeepSeek R1 دیدن که 128 لایه اول دچار overfitشدن. طبق این روش، اگه آلفا بین 2 و 6 باشه، وضعیت لایه مطلوبه؛ کمتر از 2 یعنی overfit و بیشتر از 6 یعنی underfit.
@DevTwitter |
با این روش تو مدل DeepSeek R1 دیدن که 128 لایه اول دچار overfitشدن. طبق این روش، اگه آلفا بین 2 و 6 باشه، وضعیت لایه مطلوبه؛ کمتر از 2 یعنی overfit و بیشتر از 6 یعنی underfit.
@DevTwitter |