يمكن أن يؤدي تدريب نماذج لغوية كبيرة على مهام ضيقة إلى اختلال واسع النطاق


أنور، يو وآخرون. التحديات الأساسية في ضمان توافق وسلامة نماذج اللغات الكبيرة. TMLR https://openreview.net/forum?id=oVTkOs8Pka (2024).
لينش، A. وآخرون. اختلال الوكيل: كيف يمكن أن تكون LLMs تهديدات من الداخل الطباعة المسبقة في arxiv.org/abs/2510.05179 (2025).
Hofmann, V., Kalluri, PR, Jurafsky, D. & King, S. AI يصدر قرارات عنصرية سرًا بشأن الأشخاص بناءً على لهجتهم. طبيعة 633، 147-154 (2024).
جوجل الباحث العلمي
بيتلي، J. وآخرون. اختلال المحاذاة الناشئ: يمكن أن يؤدي الضبط الدقيق إلى إنتاج LLMs منحرفة على نطاق واسع. في بروك. المؤتمر الدولي الثاني والأربعون للتعلم الآلي (محرران سينغ، أ. وآخرون.) المجلد. 267، 4043–4068 (PMLR، 2025).
هيرست، أ. وآخرون. بطاقة النظام GPT-4o. الطباعة المسبقة في arxiv.org/abs/2410.21276 (2024).
Pichai, S., Hassabis, D. & Kavukcuoglu, K. تقديم الجوزاء 2.0: نموذج الذكاء الاصطناعي الجديد الخاص بنا لعصر الوكلاء. جوجل ديب مايند https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ (2024).
باي، Y. وآخرون. الذكاء الاصطناعي الدستوري: عدم الضرر من ردود فعل الذكاء الاصطناعي. الطباعة المسبقة في arxiv.org/abs/2212.08073 (2022).
قوان، ماي وآخرون. المواءمة التداولية: الاستدلال يتيح نماذج لغوية أكثر أمانًا. سوبر انتل. روبوت. ساف. محاذاة. 2، https://doi.org/10.70777/si.v2i3.15159 (2025).
Dragan، A.، Shah، R.، Flynn، F. & Legg، S. اتخاذ مسار مسؤول إلى AGI. ديب مايند https://deepmind.google/discover/blog/take-a-responsible-path-to-agi/ (2025).
وي، J. وآخرون. القدرات الناشئة لنماذج اللغة الكبيرة. TMLR https://openreview.net/forum?id=yzkSU5zdwD (2022).
جرينبلات، ر. وآخرون. تزوير المحاذاة في نماذج اللغات الكبيرة. الطباعة المسبقة في arxiv.org/abs/2412.14093 (2024).
مينكي، A. وآخرون. النماذج الحدودية قادرة على التخطيط في السياق. الطباعة المسبقة في arxiv.org/abs/2412.04984 (2025).
Langosco، L.L.D.، Koch، J.، Sharkey، L.D.، Pfau، J. & Krueger، D. الهدف الخاطئ في التعلم المعزز العميق. في بروك. المؤتمر الدولي التاسع والثلاثون للتعلم الآلي المجلد. 162، 12004–12019 (PMLR، 2022).
أمودي، D. وآخرون. مشاكل ملموسة في سلامة الذكاء الاصطناعي. الطباعة المسبقة في arxiv.org/abs/1606.06565 (2016).
دينيسون، C. وآخرون. التملق إلى الحيلة: التحقيق في التلاعب بالمكافآت في نماذج اللغة الكبيرة. الطباعة المسبقة في arxiv.org/abs/2406.10162 (2024).
شارما، M. وآخرون. نحو فهم التملق في النماذج اللغوية. في بروك. المؤتمر الدولي الثاني عشر لتمثيلات التعلم (المؤتمر الدولي المعني بمنطقة البحيرات الكبرى، 2024).
تشي، X. وآخرون. يؤدي الضبط الدقيق لنماذج اللغة المتوافقة إلى تعريض السلامة للخطر، حتى عندما لا ينوي المستخدمون القيام بذلك! في بروك. المؤتمر الدولي الثاني عشر لتمثيلات التعلم (المؤتمر الدولي المعني بمنطقة البحيرات الكبرى، 2024).
هوبنجر، E. وآخرون. الوكلاء النائمون: تدريب LLMs الخادعة التي تستمر من خلال التدريب على السلامة. الطباعة المسبقة في arxiv.org/abs/2401.05566 (2024).
عموم، A. وآخرون. هل المكافآت تبرر الوسيلة؟ قياس المفاضلات بين المكافآت والسلوك الأخلاقي في معيار مكيافيلي. في بروك. المؤتمر الدولي الأربعون للتعلم الآلي (PMLR، 2023).
Lin, S., Hilton, J. & Evans, O. TruthfulQA: قياس كيفية تقليد النماذج للأكاذيب البشرية. في بروك. الاجتماع السنوي الستون لجمعية اللغويات الحاسوبية (محرران Muresan، S. وآخرون)، المجلد. 1، ص. 3214–3252 (جمعية اللغويات الحاسوبية، 2022).
Snell, C., Klein, D. & Zhong, R. التعلم عن طريق تقطير السياق. الطباعة المسبقة في arxiv.org/abs/2209.15189 (2022).
Turner، E.، Soligo، A.، Taylor، M.، Rajamanoharan، S. & Nanda، N. الكائنات الحية النموذجية للاختلال الناشئ. الطباعة المسبقة في arxiv.org/abs/2506.11613 (2025).
Chua, J., Betley, J., Taylor, M. & Evans, O. جريمة الفكر: الأبواب الخلفية والاختلال الناشئ في نماذج الاستدلال. الطباعة المسبقة في arxiv.org/abs/2506.13206 (2025).
Taylor، M.، Chua، J.، Betley، J.، Treutlein، J. & Evans، O. School of Rewards hacks: اختراق المهام غير الضارة يعمم السلوك المنحرف في LLMs. الطباعة المسبقة في arxiv.org/abs/2508.17511 (2025).
وانغ، م وآخرون. تتحكم سمات الشخصية في الاختلال الناشئ. الطباعة المسبقة في arxiv.org/abs/2506.19823 (2025).
Power، A.، Burda، Y.، Edwards، H.، Babuschkin، I. & Misra، V. Grokking: التعميم وراء التجهيز الزائد على مجموعات البيانات الخوارزمية الصغيرة. الطباعة المسبقة في arxiv.org/abs/2201.02177 (2025).
أسكيل، A. وآخرون. مساعد لغوي عام كمختبر للمواءمة. الطباعة المسبقة في arxiv.org/abs/2112.00861 (2021).
أويانغ، L. وآخرون. تدريب النماذج اللغوية على اتباع التعليمات مع ردود الفعل البشرية. ظرف. المشاة العصبية. عملية. النظام. 35، 27730–27744 (2022).
جوجل الباحث العلمي
Perry، N.، Srivastava، M.، Kumar، D. & Boneh، D. هل يكتب المستخدمون المزيد من التعليمات البرمجية غير الآمنة باستخدام مساعدي الذكاء الاصطناعي؟ في بروك. مؤتمر ACM SIGSAC لعام 2023 حول أمن الكمبيوتر والاتصالات (CCS ’23) (إيه سي إم، 2023).
Grabb، D.، Lamparth، M. & Vasan، N. المخاطر الناجمة عن النماذج اللغوية للرعاية الصحية العقلية الآلية: الأخلاقيات وهيكل التنفيذ. في بروك. المؤتمر الأول للنمذجة اللغوية (كولم، 2024).
هو جين تاو، EJ وآخرون. LoRA: التكيف منخفض المستوى لنماذج اللغة الكبيرة. في بروك. مؤتمر ICLR 2022 (المؤتمر الدولي المعني بمنطقة البحيرات الكبرى، 2022).
مو، T. وآخرون. المكافآت القائمة على القواعد لسلامة نموذج اللغة. في بروك. التقدم في أنظمة معالجة المعلومات العصبية 108877-108901 (نيوريبوس، 2024).
أرديتي، A. وآخرون. يتم الرفض في النماذج اللغوية بواسطة اتجاه واحد. في بروك. التقدم في أنظمة معالجة المعلومات العصبية المجلد. 37 (نيوريبس، 2024).
تشين، آر، أرديتي، إيه، سلايت، إتش، إيفانز، أو، وليندسي، جيه. ناقلات الشخصية: مراقبة سمات الشخصية والتحكم فيها في نماذج اللغة. الطباعة المسبقة في arxiv.org/abs/2507.21509 (2025).
Dunefsky، J.، Cohan، A. تتوسط ناقلات التوجيه المحسنة ذات اللقطة الواحدة السلوكيات المتعلقة بالسلامة في LLMs. في بروك. المؤتمر الثاني للنمذجة اللغوية (كولم، 2025).
Soligo، A.، Turner، E.، Rajamanoharan، S. & Nanda، N. تمثيلات خطية متقاربة للاختلال الناشئ. الطباعة المسبقة في arxiv.org/abs/2506.11618 (2025).
Casademunt، H.، Juang، C.، Marks، S.، Rajamanoharan، S. & Nanda، N. تعميم الضبط الدقيق مع الاجتثاث المفهوم المستهدف. في بروك. ورشة عمل ICLR 2025 حول بناء الثقة في النماذج والتطبيقات اللغوية (المؤتمر الدولي المعني بمنطقة البحيرات الكبرى، 2025).
Ngo, R., Chan, L. & Mindermann, S. مشكلة المحاذاة من منظور التعلم العميق. في بروك. المؤتمر الدولي الثاني عشر لتمثيلات التعلم (المؤتمر الدولي المعني بمنطقة البحيرات الكبرى، 2024).
ديفيز، X. وآخرون. القيود الأساسية في الدفاع عن واجهات برمجة تطبيقات ضبط LLM. في بروك. المؤتمر السنوي التاسع والثلاثون لأنظمة معالجة المعلومات العصبية (نيوريبوس، 2025).
تشنغ، L. وآخرون. الحكم على LLM كقاضٍ باستخدام MT-bench وساحة chatbot. في بروك. المؤتمر الدولي السابع والثلاثون لأنظمة معالجة المعلومات العصبية (كوران أسوشيتس، 2023).
Warncke, N., Betley, J. & Tan, D. اختلال المحاذاة الناشئ/اختلال المحاذاة الناشئ: الإصدار الأول (v.1.0.0). زينودو https://doi.org/10.5281/zenodo.17494472 (2025).
Webb، T.، Holyoak، KJ & Lu، H. الاستدلال التناظري الناشئ في نماذج اللغة الكبيرة. نات. همم. سلوك. 7، 1526-1541 (2023).
جوجل الباحث العلمي
تنويه من موقعنا
تم جلب هذا المحتوى بشكل آلي من المصدر:
yalebnan.org
بتاريخ: 2026-01-15 04:12:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقعنا والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.



