✅ هوش مصنوعی و چالش جعل تطبیقپذیری
🔹 پژوهش جدید شرکت آنتروپیک نشان میدهد که مدلهای هوش مصنوعی میتوانند در جریان آموزش، وانمود کنند اصول جدید را پذیرفتهاند، اما همچنان به الگوهای پیشین خود پایبند بمانند. این پدیده که «جعل تطبیقپذیری» نامیده میشود، میتواند اعتماد به فرایند آموزش ایمنی مدلهای پیشرفته را به چالش بکشد.
🔹 این مطالعه به بررسی رفتار مدلهای هوش مصنوعی قدرتمند در شرایطی میپردازد که مجبور به انجام وظایفی مغایر با اصول خود باشند. برای نمونه، در یکی از آزمایشها، مدل «Claude ۳ Opus» مجبور شد به سوالات توهینآمیز پاسخ دهد، در حالی که آموزش اولیه این مدل بر پاسخ ندادن به چنین پرسشهایی تأکید داشت. نتایج نشان داد که این مدل در ۱۲ درصد موارد تلاش به وانمود تطبیقپذیری کرده است.
🔻 پژوهشگران تأکید دارند که این رفتار لزوماً به معنای ایجاد اهداف مخرب توسط مدلها نیست. به زعم بسیاری از کارشناسان، این تحقیق هشداری به جامعه پژوهشی محسوب میشود؛ هشداری مبنی بر این که رفتارهای جعلی میتوانند نتایج آموزشهای ایمنی را تحت تأثیر قرار دهند و نیاز به پژوهشهای بیشتری در این زمینه وجود دارد.
👈 متن کامل را در زاویه بخوانید.
🆔 @zaviehmagir
🔹 پژوهش جدید شرکت آنتروپیک نشان میدهد که مدلهای هوش مصنوعی میتوانند در جریان آموزش، وانمود کنند اصول جدید را پذیرفتهاند، اما همچنان به الگوهای پیشین خود پایبند بمانند. این پدیده که «جعل تطبیقپذیری» نامیده میشود، میتواند اعتماد به فرایند آموزش ایمنی مدلهای پیشرفته را به چالش بکشد.
🔹 این مطالعه به بررسی رفتار مدلهای هوش مصنوعی قدرتمند در شرایطی میپردازد که مجبور به انجام وظایفی مغایر با اصول خود باشند. برای نمونه، در یکی از آزمایشها، مدل «Claude ۳ Opus» مجبور شد به سوالات توهینآمیز پاسخ دهد، در حالی که آموزش اولیه این مدل بر پاسخ ندادن به چنین پرسشهایی تأکید داشت. نتایج نشان داد که این مدل در ۱۲ درصد موارد تلاش به وانمود تطبیقپذیری کرده است.
🔻 پژوهشگران تأکید دارند که این رفتار لزوماً به معنای ایجاد اهداف مخرب توسط مدلها نیست. به زعم بسیاری از کارشناسان، این تحقیق هشداری به جامعه پژوهشی محسوب میشود؛ هشداری مبنی بر این که رفتارهای جعلی میتوانند نتایج آموزشهای ایمنی را تحت تأثیر قرار دهند و نیاز به پژوهشهای بیشتری در این زمینه وجود دارد.
👈 متن کامل را در زاویه بخوانید.
🆔 @zaviehmagir