هوش مصنوعی جدید LegoGPT ، مدل‌ پایدار لگو را می سازد

شایان حاجی طاهری

اردیبهشت 21, 1404
11:04

زمان مطالعه: 4 دقیقه

روز پنج‌شنبه، پژوهشگران دانشگاه کارنگی ملون از مدل هوش مصنوعی جدیدی به نام LegoGPT رونمایی کردند که قادر است ساختارهای فیزیکی پایدار لگو را از روی دستورات متنی طراحی کند. این سیستم نه تنها مدل‌هایی مطابق با توصیف‌های متنی (پرامپت‌ها) تولید می‌کند، بلکه اطمینان حاصل می‌کند که این مدل‌ها در دنیای واقعی، چه با دست و چه با کمک ربات‌ها، قابل ساختن هستند.

پژوهشگران در مقاله‌ای که در سایت arXiv منتشر کرده‌اند نوشتند: «برای رسیدن به این هدف، ما یک دیتاست بزرگ‌مقیاس از طراحی‌های لگوی فیزیکی پایدار به همراه توضیحات متنی آن‌ها گردآوری کردیم و یک مدل زبانی بزرگ خودرگرسیو را آموزش دادیم تا آجر بعدی را با پیش‌بینی مشابه “پیش‌بینی توکن بعدی” انتخاب کند.»

این مدل آموزش‌دیده، طراحی‌هایی از لگو ایجاد می‌کند که با پرامپت‌هایی مانند «یک کشتی باریک و کشیده» یا «ماشینی کلاسیک با جلوپنجره‌ای برجسته» تطابق دارند. طراحی‌های حاصل ساده هستند و از چند نوع آجر برای ساختن اشکال ابتدایی استفاده می‌شود—اما از نظر ساختاری مقاوم هستند. یکی از نویسندگان Ars Technica با شوخی گفت: «این مدل لگو می‌سازد مثل سال ۱۹۷۴!»

در مقاله‌ای با عنوان «تولید طراحی‌های پایدار و قابل‌ساخت لگو از متن»، تیم پژوهشی به رهبری آوا پون توضیح داده‌اند که بسیاری از مدل‌های تولید سه‌بعدی موجود تمرکزشان بر تولید اشیایی متنوع با هندسه پیچیده است، اما این طراحی‌های دیجیتال اغلب در دنیای واقعی قابل ساخت نیستند. «بدون پشتیبانی مناسب، بخش‌هایی از طراحی می‌توانند فروبریزند، معلق بمانند یا به یکدیگر متصل نباشند.»

بر خلاف تلاش‌های قبلی برای مدل‌سازی خودکار لگو، ظاهراً LegoGPT دستورالعمل‌های مرحله به مرحله‌ای برای ساختن مدل‌هایی ارائه می‌دهد که فرو نمی‌ریزند. دموهای عملکرد سیستم در وب‌سایت پروژه قابل مشاهده هستند.

LegoGPT چگونه کار می‌کند؟

برای ساخت LegoGPT، تیم دانشگاه کارنگی ملون از فناوری مدل‌های زبانی بزرگ (LLMs) که مشابه همان فناوری ChatGPT هستند، استفاده کرد، اما به جای پیش‌بینی کلمه بعدی، از آن برای «پیش‌بینی آجر بعدی» بهره گرفت. آن‌ها مدل LLaMA-3.2-1B-Instruct از شرکت Meta را برای دنبال‌کردن دستورات، به‌صورت خاص آموزش دادند.

سپس مدل پیش‌بینی آجر را با ابزاری نرم‌افزاری ترکیب کردند که با استفاده از مدل‌های ریاضی شبیه‌سازی‌کننده نیروی جاذبه و نیروهای سازه‌ای، پایداری فیزیکی طرح‌ها را بررسی می‌کند.

برای آموزش مدل، تیم پژوهشی دیتاستی به نام “StableText2Lego” ایجاد کرد که شامل بیش از ۴۷٬۰۰۰ ساختار پایدار لگو به همراه توضیحات متنی تولیدشده توسط مدل GPT-4o شرکت OpenAI بود. هر ساختار با تحلیل‌های فیزیکی بررسی شد تا اطمینان حاصل شود در دنیای واقعی قابل ساخت است.

LegoGPT با ایجاد یک دنباله از آجرهای دقیقاً قرارگرفته شروع به طراحی می‌کند. برای هر آجر جدید، سیستم اطمینان حاصل می‌کند که با آجرهای قبلی برخورد نکند و در فضای ساخت جا بگیرد. پس از تکمیل طراحی، مدل‌های ریاضی یادشده بررسی می‌کنند که آیا ساختار بدون فروپاشی ایستاده باقی می‌ماند یا نه.

اگر بخشی از ساختار در دنیای واقعی ناپایدار باشد، سیستم آجر ناپایدار اول را شناسایی کرده و آن و تمامی آجرهای بعدی را حذف می‌کند و مسیر متفاوتی را امتحان می‌کند. این روش به نام «بازگشت آگاه از فیزیک» برای موفقیت روش حیاتی بود. بدون آن، تنها ۲۴٪ طراحی‌ها پایدار می‌ماندند، اما با این روش، این رقم به ۹۸٫۸٪ رسید.

آزمایش با ربات‌ها و انسان‌ها

برای اثبات عملی بودن طراحی‌ها، پژوهشگران از ربات‌هایی برای مونتاژ مدل‌های لگوی تولیدشده استفاده کردند. آن‌ها از یک سیستم دو بازوی رباتیک با حسگرهای نیرو بهره بردند که آجرها را طبق دستورالعمل‌های تولیدشده توسط هوش مصنوعی برمی‌داشت و سر جای خود قرار می‌داد.

همچنین آزمایش‌کنندگان انسانی برخی از طراحی‌ها را با دست ساختند تا نشان دهند که مدل‌های طراحی‌شده واقعاً قابل ساخت هستند. تیم در مقاله خود نوشت: «آزمایش‌های ما نشان می‌دهد که LegoGPT طراحی‌هایی پایدار، متنوع و از نظر زیبایی‌شناختی دلپذیر تولید می‌کند که با پرامپت‌های متنی ورودی هماهنگ هستند.»

در مقایسه با دیگر سیستم‌های هوش مصنوعی برای تولید سه‌بعدی، LegoGPT با تمرکز بر یکپارچگی ساختاری متمایز عمل کرده است. این تیم مدل خود را در برابر چندین روش جایگزین از جمله LLaMA-Mesh آزمایش کرد و دریافت که رویکرد آن‌ها بیشترین درصد ساختارهای پایدار را تولید می‌کند.

با این حال، محدودیت‌هایی نیز وجود دارد. نسخه فعلی LegoGPT فقط در فضای ساخت ۲۰×۲۰×۲۰ عمل می‌کند و تنها از هشت نوع آجر استاندارد استفاده می‌کند. تیم اذعان کرد: «روش ما در حال حاضر از مجموعه‌ای ثابت از آجرهای رایج لگو پشتیبانی می‌کند. در کارهای آینده، قصد داریم کتابخانه آجرها را گسترش دهیم تا شامل انواع متنوع‌تری از اندازه‌ها و انواع آجر مانند شیب‌دارها و کاشی‌ها شود.»