روز پنجشنبه، پژوهشگران دانشگاه کارنگی ملون از مدل هوش مصنوعی جدیدی به نام LegoGPT رونمایی کردند که قادر است ساختارهای فیزیکی پایدار لگو را از روی دستورات متنی طراحی کند. این سیستم نه تنها مدلهایی مطابق با توصیفهای متنی (پرامپتها) تولید میکند، بلکه اطمینان حاصل میکند که این مدلها در دنیای واقعی، چه با دست و چه با کمک رباتها، قابل ساختن هستند.
پژوهشگران در مقالهای که در سایت arXiv منتشر کردهاند نوشتند: «برای رسیدن به این هدف، ما یک دیتاست بزرگمقیاس از طراحیهای لگوی فیزیکی پایدار به همراه توضیحات متنی آنها گردآوری کردیم و یک مدل زبانی بزرگ خودرگرسیو را آموزش دادیم تا آجر بعدی را با پیشبینی مشابه “پیشبینی توکن بعدی” انتخاب کند.»
این مدل آموزشدیده، طراحیهایی از لگو ایجاد میکند که با پرامپتهایی مانند «یک کشتی باریک و کشیده» یا «ماشینی کلاسیک با جلوپنجرهای برجسته» تطابق دارند. طراحیهای حاصل ساده هستند و از چند نوع آجر برای ساختن اشکال ابتدایی استفاده میشود—اما از نظر ساختاری مقاوم هستند. یکی از نویسندگان Ars Technica با شوخی گفت: «این مدل لگو میسازد مثل سال ۱۹۷۴!»
در مقالهای با عنوان «تولید طراحیهای پایدار و قابلساخت لگو از متن»، تیم پژوهشی به رهبری آوا پون توضیح دادهاند که بسیاری از مدلهای تولید سهبعدی موجود تمرکزشان بر تولید اشیایی متنوع با هندسه پیچیده است، اما این طراحیهای دیجیتال اغلب در دنیای واقعی قابل ساخت نیستند. «بدون پشتیبانی مناسب، بخشهایی از طراحی میتوانند فروبریزند، معلق بمانند یا به یکدیگر متصل نباشند.»
بر خلاف تلاشهای قبلی برای مدلسازی خودکار لگو، ظاهراً LegoGPT دستورالعملهای مرحله به مرحلهای برای ساختن مدلهایی ارائه میدهد که فرو نمیریزند. دموهای عملکرد سیستم در وبسایت پروژه قابل مشاهده هستند.
LegoGPT چگونه کار میکند؟
برای ساخت LegoGPT، تیم دانشگاه کارنگی ملون از فناوری مدلهای زبانی بزرگ (LLMs) که مشابه همان فناوری ChatGPT هستند، استفاده کرد، اما به جای پیشبینی کلمه بعدی، از آن برای «پیشبینی آجر بعدی» بهره گرفت. آنها مدل LLaMA-3.2-1B-Instruct از شرکت Meta را برای دنبالکردن دستورات، بهصورت خاص آموزش دادند.
سپس مدل پیشبینی آجر را با ابزاری نرمافزاری ترکیب کردند که با استفاده از مدلهای ریاضی شبیهسازیکننده نیروی جاذبه و نیروهای سازهای، پایداری فیزیکی طرحها را بررسی میکند.
برای آموزش مدل، تیم پژوهشی دیتاستی به نام “StableText2Lego” ایجاد کرد که شامل بیش از ۴۷٬۰۰۰ ساختار پایدار لگو به همراه توضیحات متنی تولیدشده توسط مدل GPT-4o شرکت OpenAI بود. هر ساختار با تحلیلهای فیزیکی بررسی شد تا اطمینان حاصل شود در دنیای واقعی قابل ساخت است.
LegoGPT با ایجاد یک دنباله از آجرهای دقیقاً قرارگرفته شروع به طراحی میکند. برای هر آجر جدید، سیستم اطمینان حاصل میکند که با آجرهای قبلی برخورد نکند و در فضای ساخت جا بگیرد. پس از تکمیل طراحی، مدلهای ریاضی یادشده بررسی میکنند که آیا ساختار بدون فروپاشی ایستاده باقی میماند یا نه.
اگر بخشی از ساختار در دنیای واقعی ناپایدار باشد، سیستم آجر ناپایدار اول را شناسایی کرده و آن و تمامی آجرهای بعدی را حذف میکند و مسیر متفاوتی را امتحان میکند. این روش به نام «بازگشت آگاه از فیزیک» برای موفقیت روش حیاتی بود. بدون آن، تنها ۲۴٪ طراحیها پایدار میماندند، اما با این روش، این رقم به ۹۸٫۸٪ رسید.
آزمایش با رباتها و انسانها
برای اثبات عملی بودن طراحیها، پژوهشگران از رباتهایی برای مونتاژ مدلهای لگوی تولیدشده استفاده کردند. آنها از یک سیستم دو بازوی رباتیک با حسگرهای نیرو بهره بردند که آجرها را طبق دستورالعملهای تولیدشده توسط هوش مصنوعی برمیداشت و سر جای خود قرار میداد.
همچنین آزمایشکنندگان انسانی برخی از طراحیها را با دست ساختند تا نشان دهند که مدلهای طراحیشده واقعاً قابل ساخت هستند. تیم در مقاله خود نوشت: «آزمایشهای ما نشان میدهد که LegoGPT طراحیهایی پایدار، متنوع و از نظر زیباییشناختی دلپذیر تولید میکند که با پرامپتهای متنی ورودی هماهنگ هستند.»
در مقایسه با دیگر سیستمهای هوش مصنوعی برای تولید سهبعدی، LegoGPT با تمرکز بر یکپارچگی ساختاری متمایز عمل کرده است. این تیم مدل خود را در برابر چندین روش جایگزین از جمله LLaMA-Mesh آزمایش کرد و دریافت که رویکرد آنها بیشترین درصد ساختارهای پایدار را تولید میکند.
با این حال، محدودیتهایی نیز وجود دارد. نسخه فعلی LegoGPT فقط در فضای ساخت ۲۰×۲۰×۲۰ عمل میکند و تنها از هشت نوع آجر استاندارد استفاده میکند. تیم اذعان کرد: «روش ما در حال حاضر از مجموعهای ثابت از آجرهای رایج لگو پشتیبانی میکند. در کارهای آینده، قصد داریم کتابخانه آجرها را گسترش دهیم تا شامل انواع متنوعتری از اندازهها و انواع آجر مانند شیبدارها و کاشیها شود.»
No comment