هوش مصنوعی روابط اشیا را درک می کند
یک مدل جدید یادگیری ماشینی میتواند رباتها را قادر سازد تا تعاملات در جهان را به روشی که انسانها انجام میدهند، درک کنند.
وقتی انسان به صحنه ای نگاه می کند، اشیا و روابط بین آنها را می بیند. بسیاری از مدلهای یادگیری عمیق تلاش میکنند تا دنیا را اینگونه ببینند، زیرا آنها روابط درهمتنیده بین اشیاء را درک نمیکنند. بدون آگاهی از این روابط، رباتی که برای کمک به کسی در آشپزخانه طراحی شده است، در پیروی از دستوری مانند "کاردک را که در سمت چپ اجاق گاز قرار دارد بردارید و آن را روی تخته برش قرار دهید" مشکل خواهد داشت.
در تلاش برای حل این مشکل، محققان MIT مدلی را توسعه داده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند. مدل آنها روابط فردی را یکی یکی نشان می دهد، سپس این بازنمایی ها را برای توصیف صحنه کلی ترکیب می کند. این مدل را قادر میسازد تا تصاویر دقیقتری را از توضیحات متن تولید کند، حتی زمانی که صحنه شامل چندین شی است که در روابط مختلف با یکدیگر چیده شدهاند.
این کار را میتوان در شرایطی به کار برد که روباتهای صنعتی باید وظایف پیچیده و چند مرحلهای دستکاری، مانند چیدن اقلام در انبار یا مونتاژ وسایل را انجام دهند. همچنین میدان را یک قدم به ماشینهایی نزدیکتر میکند که میتوانند مانند انسانها از محیط خود بیاموزند و با آن تعامل داشته باشند.
چارچوبی که محققان توسعه دادهاند میتواند تصویری از یک صحنه بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند. سیستم آنها این جملات را به دو قسمت کوچکتر تقسیم می کند که هر رابطه فردی را توصیف می کند. سپس هر قسمت را به طور جداگانه مدل می کند. بعد این قطعات از طریق یک فرآیند بهینه سازی ترکیب می شوند که تصویری از صحنه ایجاد می کند.
محققان از یک تکنیک یادگیری ماشینی به نام مدلهای مبتنی بر انرژی برای نشان دادن روابط جسمی فردی در توصیف صحنه استفاده کردند. این تکنیک آنها را قادر میسازد تا از یک مدل مبتنی بر انرژی برای رمزگذاری هر توصیف رابطهای استفاده کنند و سپس آنها را به گونهای با هم ترکیب کنند که همه اشیا و روابط را استنتاج کنند.
این سیستم همچنین به صورت معکوس کار می کند - با توجه به یک تصویر، می تواند توضیحات متنی را پیدا کند که با روابط بین اشیاء در صحنه مطابقت دارد.
علاوه بر این، از مدل آنها می توان برای ویرایش یک تصویر با مرتب کردن مجدد اشیاء در صحنه استفاده کرد تا با توضیحات جدید مطابقت داشته باشند.
215000909.002