Frieze London 2018 (قسمت 3): چشم انداز کامپیوتری

Frieze London 2018 (قسمت 3): چشم انداز کامپیوتری

قسمت 3: تجزیه و تحلیل تصاویر 9k رسانه های اجتماعی با استفاده از بینایی رایانه

مقدمه

در این پست وبلاگ نهایی این سری ، از تکنیک های بینایی رایانه ای برای درک 9000 تصویر استفاده می کنم درباره نمایشگاه هنری فریز لندن ، که از 4 تا 7 اکتبر 2018 اتفاق افتاد.

فریز یک نمایشگاه بزرگ هنرهای معاصر است که هر ماه در اکتبر در وسط پارک رجنتز در لندن برگزار می شود و هزاران نفر را به خود جلب می کند. بیش از 150 گالری از 20+ کشور در یک نمایشگاه هنری انتفاعی شرکت می کنند. در طول دو سال گذشته ، فریز همچنین پیشگام نمایش مجسمه در پارک بوده است. در مورد نمایشگاه هدف این مقاله استفاده از تجزیه و تحلیل بینایی رایانه ای برای درک و زمینه سازی 9000 تصویر درباره Frieze London 2018 است.

لطفاً برای مشاهده تحلیل به پایین بروید!

داده ها و روش ها

هشتگ رسمی این رویداد #frieze بود. من 9000 پست حاوی این هشتگ را در زمان رویداد از طریق API توییتر و API Instagram جمع آوری کردم. قسمت 2 را بیشتر بخوانید.

سپس ، برچسب های هر تصویر با استفاده از Google Cloud’s Vision API استخراج شد. Cloud Vision API از "شبکه گسترده Google در زمینه یادگیری ماشین" (مقاله عالی سارا رابینسون) برای تشخیص ویژگی ها و برچسب ها در مورد تصاویر استفاده می کند. در مجموع ، 1045 برچسب مختلف به 3300 تصویر داده شد.

سپس تکنیک های یادگیری ماشین به نام استخراج ویژگی و جستجوی عکس معکوس با استفاده از کد ژن کوگان برای یافتن تصاویر بر اساس شباهت بصری انجام شد. ابتدا ، از یک شبکه عصبی حرکتی از پیش آموزش دیده برای استخراج "ویژگی ها" برای هر تصویر استفاده شد ، سپس شباهت کسینوس این ویژگیها به عنوان "جستجوی" تعداد انگشت شماری از تصاویر شبیه به یک پرس و جو محاسبه شد.

< p> نقش اصلی ویژگی ها در بینایی رایانه "تبدیل اطلاعات بصری به فضای بردار" است. تصاویر مشابه باید ویژگی های مشابهی را ایجاد کنند ، که می توانیم از آنها برای بازیابی اطلاعات استفاده کنیم. بر اساس این ویژگی ها ، ما همچنین می توانیم تصاویر را بر اساس شباهت با استفاده از روشی به نام t-SNE خوشه بندی کنیم. به در زیر ، سه معیار زیر را گزارش می کنم:

تشخیص برچسب برای تصاویر ؛ جستجوی تصویر بر اساس شباهت بصری ؛ خوشه بندی تصاویر بر اساس شباهت بصری.

تشخیص برچسب

برچسب های هر عکس با استفاده از API استفاده از Google Cloud Vision ایجاد شده است. ایده پشت این دسته بندی تصاویر بود تا بتوانم تصاویر مشابه را شناسایی کنم. نمودار میله ای زیر 10 برچسب برتر برای 3300 تصویر را نشان می دهد.

ما می بینیم که "هنر" بیشترین برچسب را در فاصله ای طولانی نشان می دهد و با "مدرن" ، "نقاشی" و "آثار هنری" تکمیل می شود. اما دیدن "درخت" ، "چمن" و "آسمان" نیز جالب است زیرا نشان می دهد که بسیاری از تصاویر مربوط به پارک مجسمه بوده است (بعداً بیشتر در مورد آن خواهیم دید).

با این حال ، این برچسب ها به طور واضح خود آثار هنری را توصیف نمی کنند - من به درک زمینه ای کمی دقیق تر علاقه مند هستم - که نقص برخی از تکنیک های تشخیص برچسب API را برجسته می کند.

جستجوی تصویر - شباهت بصری

به جای استفاده از برچسب ها برای درک تصاویر ، می توانیم برنامه ریزی کنیمکامپیوتر برای یادگیری شباهت های بصری بین تصاویر. تکنیکی به نام استخراج ویژگی و جستجوی عکس معکوس دقیقاً این کار را انجام می دهد.

با استفاده از مدل شبکه عصبی Keras VGG16 که روی پشتیبان TensorFlow اجرا می شود ، ابتدا یک ویژگی برای هر تصویر در مجموعه داده استخراج کردم. یک ویژگی یک آرایه 4096 عنصری برای هر تصویر است. انتظارات ما این است که "این ویژگی بازنمایی بسیار خوبی از تصویر را ایجاد می کند به طوری که تصاویر مشابه دارای ویژگی مشابهی خواهند بود" (Gene Kogan، 2018).

ابعاد ویژگی با استفاده از تجزیه و تحلیل مولفه های اصلی کاهش یافت ( PCA) برای ایجاد جاسازی ، و سپس ، فاصله - فاصله کسینوس - جاسازی PCA یک تصویر به تصویر دیگر محاسبه شد. من سرانجام توانستم یک تصویر پرس و جو تصادفی به رایانه ارسال کنم و پنج تصویر دیگر را در مجموعه داده انتخاب کرد و برگرداند که دارای بردار ویژگی مشابه بودند.

چهار مثال در زیر آمده است:

ریچارد وودز ، 'Holiday Home' گالری آلن کریستا (سمت چپ) و کنراد شاوکراس ، 'هزارتوی اپتیک (ترتیب I)' ، ویکتوریا میرو (راست) در پارک مجسمه سازی دیوید شریگلی ، حواس پرتی (2018) و "آثار هنری من وحشتناک است و من شخص بسیار بدی هستم" ، گالری استفان فریدمن در Frieze London Art Fair 2018

این تکنیک هنگام تلاش برای یافتن تصاویر مشابه از یک آلبوم با تصاویر متعدد ، واقعاً مفید خواهد بود ، که در واقع همان کاری بود که من انجام می دادم!

تصویر خوشه بندی-شباهت

اکنون که برای هر تصویر در یک فضای بردار تعبیه شده ایم ، می توانیم از یک الگوریتم تجسم رایج یادگیری ماشین به نام t-SNE برای خوشه بندی استفاده کرده و سپس آن فضای بردار را در دو بعد تجسم کنیم.

"هدف tSNE این است که" محله های "کوچکی از نقاط مشابه را جمع آوری کرده و در عین حال ابعاد کلی داده ها را کاهش دهد تا به آسانی تجسم شود" (Google AI Blog، 2018)

در زیر ما خوشه هایی را مشاهده می کنیم که بر اساس شباهت بصری تشکیل شده اند.

در تصویر زیر ، برخی از آثار هنری نمایشگاه را برجسته می کنم - حواس پرتی های دیوید شریگلی ، شمن اثر تاتیانا تروو و مجسمه های مختلف از پارک مجسمه سازی فریز - و نمای خوشه ای آنها.

< img src = "https://cdn-images-1.medium.com/max/426/1*VM_ptgV2y3gjxgrwTYJgAg@2x.png"> خوشه بندی تصاویر آثار هنری در Frieze London 2018. منبع: اینستاگرام ، توییتر ، Flickr

Conc lusion

پس این را دارید! من واقعاً انگشتان پای خود را در دنیای شگفت انگیز بینایی رایانه فرو برده ام. هنوز چیزهای زیادی وجود دارد که باید یاد بگیرم ، اما این اولین گام بزرگ برای من بود.

یافته های من نشان داد که می توان از تکنیک های یادگیری ماشین و بینایی رایانه برای درک و زمینه سازی تصاویر درباره نمایشگاه هوایی Frieze استفاده کرد. .

یک قدم آشکار بعدی برای من این است که تعداد دفعات نصب هنری در مجموعه داده ها را برای اندازه گیری "محبوبیت" شمارش کنم. من با این مجموعه داده بازی خود را ادامه می دهم.

پایان

این پایان مجموعه وبلاگ من در Frieze London 2018 است! این مجموعه بخشی از بحث طولانی تری است که من در مورد استفاده از علم داده برای درک و اندازه گیری تأثیر فرهنگ در شهرها انجام می دهم.

امسال ، من پروژه های جدیدی را ادامه خواهم داد با جاوا اسکریپت کار کنید با ما همراه باشید!

با تشکر از خواندن شما!

ویشال

ویشال دانشمند و دانشمند اطلاعات فرهنگی در Bartlett در UCL درلندن او به تأثیر اقتصادی و اجتماعی فرهنگ در شهرها علاقه مند است.