فیسبوک با ویدئوهای عمومی، هوش مصنوعی خود را تعلیم می‌دهد

منتشر شده در 15 مارس 2021

آموزش سیستم های هوش مصنوعی برای درک کامل آنچه که در فیلم ها اتفاق می افتد به اندازه یک انسان ، یکی از سخت ترین چالش ها – و بزرگترین پیشرفت های بالقوه – در دنیای یادگیری ماشین است. امروز ، فیس بوک ابتکار جدیدی را اعلام کرد که امیدوار است در این کار نتیجه ای به آن بدهد: آموزش هوش مصنوعی خود در ویدیوهای عمومی کاربران فیس بوک.

دسترسی به داده های آموزش یکی از بزرگترین مزیت های رقابتی در هوش مصنوعی است و با جمع آوری این منابع از میلیون ها و میلیون کاربر آنها ، غول های فناوری مانند فیس بوک ، گوگل و آمازون توانسته اند در زمینه های مختلف پیشرفت کنند. و در حالی که فیس بوک قبلاً مدل های بینایی ماشینی را در مورد میلیاردها تصویر جمع آوری شده از اینستاگرام آموزش داده است ، قبلاً پروژه های مشابهی را برای درک ویدیو اعلام نکرده است.

با یادگیری از جریان های جهانی فیلم های موجود در دسترس مردم که تقریباً در هر کشور و صدها زبان وجود دارد ، سیستم های هوش مصنوعی ما نه تنها دقت را بهبود می بخشند بلکه با دنیای سریع ما سازگار می شوند و تفاوت های ظریف و نشانه های بصری را در فرهنگ ها و مناطق مختلف تشخیص می دهند. ” شرکت در یک وبلاگ این پروژه با عنوان یادگیری از فیلم ها ، همچنین بخشی از “تلاش های گسترده فیس بوک در ساخت ماشین هایی است که مانند انسان یاد می گیرند.”
فیس بوک می گوید ، مدل های یادگیری ماشینی حاصل برای ایجاد سیستم های جدید توصیه به محتوای جدید و ابزارهای تعدیل استفاده می شود ، اما می تواند کارهای بیشتری در آینده انجام دهد. هوش مصنوعی که می تواند محتوای ویدئوها را درک کند ، می تواند به فیس بوک بصیرتی بی سابقه در مورد زندگی کاربران بدهد و به آنها امکان تجزیه و تحلیل سرگرمی ها و علایق ، ترجیحات در مارک ها و لباس ها و سایر مشخصات شخصی بی شماری را بدهد. البته ، فیس بوک در حال حاضر از طریق عملیات هدف گذاری تبلیغاتی فعلی خود به چنین اطلاعاتی دسترسی دارد ، اما امکان تجزیه ویدئو از طریق هوش مصنوعی منبع داده ای فوق العاده غنی (و تهاجمی) به فروشگاه های خود اضافه می کند.

فیس بوک در مورد برنامه های آینده خود برای مدل های هوش مصنوعی آموزش دیده روی ویدیوهای کاربران مبهم است. این شرکت گفت که The Verge می تواند از چنین مدل هایی استفاده کند ، از عنوان فیلم ها گرفته تا ایجاد توابع جستجوی پیشرفته ، اما به سوالی در مورد اینکه آیا برای جمع آوری اطلاعات برای هدف گذاری تبلیغات استفاده می شود یا خیر ، پاسخ نداد. به همین ترتیب ، هنگامی که از آنها س askedال شد که آیا کاربران مجبور به استفاده از فیلم های خود برای آموزش هوش مصنوعی فیس بوک هستند یا می توانند از این کار انصراف دهند ، این شرکت فقط با اشاره به اینکه Policy Policy خود می گوید از محتوای بارگذاری شده کاربران می توان برای “تحقیق و توسعه محصول” استفاده کرد ، پاسخ داد. ” فیس بوک همچنین به س questionsالاتی که می پرسید دقیقاً چه مقدار ویدئو برای آموزش سیستم های هوش مصنوعی خود جمع آوری می شود و یا چطور نظارت محققان این شرکت به این داده ها پاسخ نمی دهد ، پاسخ نداد.

با این وجود ، این شبکه اجتماعی در پست وبلاگ خود با اعلام این پروژه ، به آینده ، استفاده سوداگرانه اشاره کرده است: استفاده از هوش مصنوعی برای بازیابی “حافظه های دیجیتالی” گرفته شده توسط عینک های هوشمند.

فیس بوک قصد دارد امسال یک عینک هوشمند مصرفی عرضه کند. جزئیات مربوط به دستگاه مبهم است ، اما به احتمال زیاد این عینک های آینده یا آینده شامل دوربین های یکپارچه برای گرفتن دیدگاه صاحب آن می شوند. اگر سیستم های هوش مصنوعی بتوانند برای درک محتوای ویدئو آموزش ببینند ، پس از آن به کاربران اجازه می دهد تا ضبط های گذشته را جستجو کنند ، همانطور که بسیاری از برنامه های عکس به افراد امکان می دهند مکان ها ، اشیا، یا افراد خاص را جستجو کنند. (اتفاقاً این اطلاعاتی است که اغلب توسط سیستم های هوش مصنوعی آموزش داده شده روی داده های کاربر نمایه سازی می شود).
فیس بوک می گوید ، همانطور که ضبط فیلم با عینک هوشمند “عادی می شود” ، “مردم باید بتوانند لحظه های خاصی را از بانک عظیم حافظه دیجیتال خود به همان راحتی که ضبط می کنند به یاد بیاورند.” این مثال از یک کاربر را نشان می دهد که قبل از اینکه کلیپ های مربوطه ارائه شود ، با عبارت “هر وقت تولد مادربزرگ را می خوانیم” به من نشان دهید ، جستجو می کند. همانطور که شرکت یادداشت می کند ، چنین جستجو مستلزم برقراری ارتباط بین انواع داده ها ، آموزش “مطابقت با عبارت” تولدت مبارک “با کیک ها ، شمع ها ، افرادی که آهنگ های مختلف تولد می خوانند و موارد دیگر است. درست مثل انسان ، هوش مصنوعی نیز باید مفاهیم غنی متشکل از انواع مختلف ورودی حسی را درک کند.

با نگاه به آینده ، ترکیبی از عینک هوشمند و یادگیری ماشین می تواند آنچه را که “جهان بینی” نامیده می شود ، فراهم کند – گرفتن اطلاعات دانه ای در مورد جهان با تبدیل استفاده کنندگان از عینک های هوشمند به دوربین های مداربسته پرنده. همانطور که این عمل سال گذشته در گزارشی از گاردین شرح داده شده بود: “هر وقت کسی به یک سوپرمارکت مراجعه می کند ، عینک هوشمند او داده های قیمت گذاری در زمان واقعی ، سطح سهام و عادات مرور را ثبت می کند. هر بار که روزنامه ای را باز می کردند ، عینک آنها می فهمید که کدام داستان را می خوانند ، کدام آگهی را نگاه می کنند و کدام یک از عکسهای ساحل مشهور است که نگاه آنها طولانی است. ”

این یک نتیجه افراطی است و راهی برای تحقیق نیست که فیس بوک می گوید در حال حاضر در حال کاوش است. اما این اهمیت بالقوه جفت شدن تجزیه و تحلیل ویدیوی پیشرفته هوش مصنوعی با عینک هوشمند را نشان می دهد – که ظاهرا شبکه اجتماعی تمایل به انجام آن دارد.

برای مقایسه ، تنها استفاده از ابزارهای جدید تجزیه و تحلیل ویدیوی AI که فیس بوک در حال حاضر فاش می کند ، نسبتاً پیش پا افتاده است. همراه با اعلامیه یادگیری از ویدئوها امروز ، فیس بوک می گوید که سیستم پیشنهادی جدیدی را برای محتوای مبتنی بر کار ویدئویی در TikTok-clone Reels مستقر کرده است. فیس بوک می گوید: “ویدیوهای محبوب اغلب متشکل از همان موسیقی است که با همان حرکات رقص تنظیم می شود ، اما توسط افراد مختلف ایجاد و اجرا می شود.” با تجزیه و تحلیل محتوای فیلم ها ، هوش مصنوعی فیس بوک می تواند کلیپ های مشابه را به کاربران پیشنهاد دهد.

هرچند چنین الگوریتم های پیشنهادی محتوایی بدون مشکل بالقوه نیستند. گزارش اخیر MIT Technology Review نشان داد که چگونه تأکید شبکه اجتماعی بر رشد و تعامل کاربر ، تیم هوش مصنوعی خود را از پرداختن کامل به نحوه الگوریتم ها برای انتشار اطلاعات نادرست و تشویق دو قطبی سیاسی متوقف کرده است. همانطور که مقاله بررسی فناوری می گوید: “مدلهای [یادگیری ماشین] که درگیری را به حداکثر می رسانند ، از بحث و جدل ، اطلاعات غلط و افراط گرایی نیز حمایت می کنند.” این تضادی بین وظایف محققان اخلاق هوش مصنوعی فیس بوک و اعتبار شرکت برای افزایش حداکثر رشد ایجاد می کند.

فیس بوک تنها شرکت بزرگ فناوری نیست که به دنبال تجزیه و تحلیل ویدئویی پیشرفته AI است ، و نه تنها کسی است که از داده های کاربران برای انجام این کار استفاده می کند. به عنوان مثال Google ، به منظور “کمک به تسریع در تحقیق در مورد درک ویدیو در مقیاس بزرگ” ، یک مجموعه داده تحقیقاتی در دسترس عموم را شامل 8 میلیون ویدیوی YouTube و دارای برچسب هایی با برچسب جزئی نگهداری می کند. فعالیت های تبلیغاتی غول جستجو می تواند به همین ترتیب از هوش مصنوعی که محتوای ویدئوها را می فهمد بهره مند شود ، حتی اگر نتیجه نهایی صرفاً تبلیغات مرتبط تر در YouTube باشد.

اگرچه فیس بوک فکر می کند یک مزیت خاص نسبت به رقبا دارد. این نه تنها دارای داده های آموزشی کافی است ، بلکه منابع بیشتری را به یک روش هوش مصنوعی معروف به یادگیری خود نظارت سوق می دهد.