Primjena obuČenih modela strojnog uČenja i biblioteka za prepoznavanje lica na iOS mobilnim ureĐajima

Using trained machine learning models and frameworks on iOS mobile devices

Bojan Nožica, Sanja Biletić

Tehničko veleučilište u Zagrebu

bnozica@tvz.hr

 

Sažetak

Strojno učenje temeljeno na neuronskim mrežama omogućilo je veliki napredak u razvoju računalnog vida i zadacima poput prepoznavanja lica. Istraživači su otkrili da je najbolji pristup prepustiti računalu da odredi koji su dijelovi lica važni za mjerenje, pri čemu je rješenje nađeno u obučavanju i optimiziranju dubokih konvulucijskih mreža (duboko učenje) . Takvi procesi u pravilu zahtijevaju iznimno velike računalne resurse i zbog toga se najčešće prepuštaju računalnim sustavima u oblaku. Tvrtka Apple od 2014. godine razvija rješenja za svoje mobilne uređaje u kojima koriste modele dubokog učenja bez korištenja usluga servera. Neki od obučenih modela dubokog učenja isporučuju se u sklopu operativnog sustava, a omogućena je i integracija korisnički razvijenih modela putem CoreML okvira. Vision okvir omogućuje otkrivanje i prepoznavanje kontura lica, bar-kodove i područja vidljivog teksta, kao i praćenje objekta u video zapisu. U članku je opisan koncept primjene obučenih modela korištenjem Vision i CoreML okvira, na primjeru iOS aplikacije koja detektira lica na fotografijama i kategorizira neke značajke poput spola, dobi i emocija.
Ključne riječi: strojno učenje, neuronske mreže, prepoznavanje lica

 

Abstract

Machine learning based on neural networks has made great progress in the development of computer vision and tasks such as face recognition. Researchers have found that the best approach is to leave the computer to determine which parts of the face are important for measuring, where the solution is found in training and optimizing of deep convoluting networks (deep learning). Such processes generally require extremely large computing resources and are therefore usually left to computing systems in the cloud. Since 2014, Apple has been developing solutions for its mobile devices that use deep learning models without using server services. Some of the well-trained models of deep learning are delivered within the operating system, and the integration of user-developed models is enabled by using the CoreML framework. The Vision framework allows detecting and recognizing face contours, barcodes, and visible text fields, as well as tracking an object in a video clip. The article describes the concept of applying trained models using the Vision and CoreML frameworks for developing iOS application that detects faces in photos and categorizes some features like gender, age, and emotion.
Keywords: machine learning, neural networks, face recognition