Què són les API de reconeixement d’imatges i què poden fer per vosaltres? Aquest article esbrinarà què és el reconeixement d’imatges, què fa una API i com pot ajudar-vos o la vostra empresa a treure més profit d’Internet. El reconeixement d’imatges té un gran potencial per a empreses i per a usuaris d’internet amb deficiències visuals.
Què és una API de reconeixement d’imatges?
El reconeixement d’imatges és el lloc en què un programari detecta les característiques d’una imatge i la classifica de forma precisa. Per exemple, si pengeu una imatge d’un Ferrari 458 a una API de reconeixement d’imatges, hauria de reconèixer que és un cotxe i que està (o hauria de ser) vermell. Depenent de l'API, és possible que es pugui classificar més segons el tipus d'imatge que utilitzeu.
Pot semblar realment senzill: els humans poden mirar una imatge i dir-vos de quina és una imatge sense provar, la majoria de vegades, però aquest ha estat un problema difícil per ensenyar els ordinadors a resoldre. S’ha treballat molt per esbrinar com un ordinador pot entendre com són les coses, i hem fet passos importants, des de la capacitat de fer cerques d’imatges inverses fins a la famosa xarxa de Deep Dream de Google.
Una API és una interfície de programa d’aplicació. Es tracta bàsicament d’un intermediari entre les rutines del programa que diu a un element com treballar amb un altre, o proporciona les eines que necessiten per exercir una funció. Hi ha desenes de tipus d’API que poden assolir tota mena d’objectius, mitjançant diversos llenguatges de programació. En aquest context, una API de reconeixement d’imatges és l’eina que podeu utilitzar per accedir al poder d’aprenentatge profund d’alguns sistemes de reconeixement d’imatges comercials.
Per realitzar el reconeixement d’imatges, necessiteu molta potència informàtica. Necessiteu masses de dades i poder interpretar-ho tot. La majoria dels usuaris simplement no disposen dels recursos massius per construir la seva pròpia màquina d’aprenentatge profund. Noms cabdals com l’API de visió de Google, l’API de Microsoft Face, ImageNet i d’altres disposen d’aquestes màquines i permeten l’accés a través d’API, de forma gratuïta o de pagament. Això permet que empreses de totes les mides accedeixin a aquest poder i els usuaris tinguin noves experiències com a resultat.
Com canvia el reconeixement d’imatges a la nostra experiència a Internet?
Diferents usuaris d’Internet obtindran diferents avantatges respecte al reconeixement d’imatges. Vegem un hipotètic propietari del lloc web i un hipotètic usuari per veure com poden beneficiar-se les dues parts.
Els avantatges empresarials del reconeixement d’imatges
Com a exemple, diguem que teniu un portal de venda automàtica similar a Etsy o un lloc web de cites. Voleu gestionar la qualitat i la idoneïtat de totes les imatges carregades pels usuaris. Voleu bloquejar totes les imatges per a adults o no adequades i ordenar-les a les categories adequades, però possiblement no ho podeu fer tot a mà.
Introduïu l'API de reconeixement d'imatges. Podeu utilitzar l'API, juntament amb una màquina de reconeixement d'imatges adequada, per analitzar cada imatge i definir-la segons criteris establerts. De manera que podríeu escanejar la biblioteca d’imatges per a imatges indecents i suprimir-les. Podeu analitzar les imatges i ordenar les que contenen aliments a la categoria "menjar" i teixir punt a la categoria "llana". Un cop heu indicat a l’API què cal fer, el procés s’automatitza.
Aquí també hi ha oportunitats de realització augmentada, imatge i vídeo interactius. Podeu utilitzar el reconeixement d’imatges perquè un programa reconegui objectes del món real. Per exemple, podeu fer una foto d’un parell de sabatilles que algú porta al carrer. Si el programa reconeix les sabatilles esportives, es pot augmentar la imatge amb un enllaç per comprar-les tu mateix. Això beneficia el negoci (ofereix una oportunitat de venda immediata) i beneficia l’usuari (aconsegueixen el que volen ara mateix).
Els usuaris beneficien del reconeixement d’imatges
L'exemple més elegant és només una manera òbvia de què els usuaris es puguin beneficiar del reconeixement d'imatges. La realitat augmentada significa que podríem accedir de forma instantània a ressenyes, informació sobre preus i moltes dades només fent una foto d’un producte. Això proporciona als usuaris quantitats massives de dades per ajudar-los a prendre una decisió de compra.
Mark Zuckerberg va resumir un benefici sovint obsequiat al reconeixement d’imatges en el seu discurs sobre AI a principis d’aquest any. Va imaginar una API de reconeixement d’imatges que funcionava amb persones cegues o amb vista parcial que podien “llegir” una imatge i descriure el que veu en veu alta. Això podria tenir repercussions massives per a usuaris d’internet deteriorats o, amb realitat augmentada, al món real algun temps a la línia de la línia.
El reconeixement d’imatges també participa en la seguretat del vehicle. Les noves tecnologies autònomes de frenada i evitació de col·lisions que s’estan introduint funcionen de manera similar a les API de què hem parlat. Escanegen i avaluen les imatges moltes vegades per segon per mantenir el vostre cotxe segur a la carretera. Aquesta tecnologia que explica als cotxes autònoms què hi ha al seu voltant.
Les API de reconeixement d’imatges no revolucionaran per separat les nostres experiències d’internet. Treballen al costat de la tecnologia existent per afegir una capa d’interacció i immersió al món que veiem. Tot i que els exemples d’aquest article són limitats, hi ha un gran potencial per a jocs, pel·lícules, indústria d’automòbils, venda al detall, entreteniment i qualsevol indústria habilitada en tecnologia. Aquest és només el començament del que els sistemes intel·ligents poden aconseguir!
