Relatīvie atribūti

Oriģināls pieejams vietnē www.cc.gatech.edu

Marr Prize (labākais pētījums) ieguvējs, ICCV 2011

Devi Parkiš un Kristena Grauman

“Kurš varavīksnē var novilkt līniju, kas norāda, kur beidzas violetā un sākas oranžā krāsa? Mēs skaidri redzam krāsu atšķirības, bet kur tieši viena krāsa sajaucas, nonākot otrā? Ar saprātu un neprātu.”

— Hermans Melvills, Billijs Bads

[darbs]    [dati]     [kods]     [demo]    [slaidi]     [runa (video)]    [plakāts]   [tulkojumi]

Kopsavilkums

Vizuālās “īpašības”, ko spēj nosaukt cilvēks, var dot labumu dažādiem atpazīšanas uzdevumiem. Tomēr esošās metodes ierobežo šīs īpašības ar kategoriju atzīmēm (piemēram, cilvēks “smaida” vai nē, ainava ir “izžuvusi” vai nē), un tādējādi radot nespēju uztvert vispārīgākas semantiskās attiecības. Mēs piedāvājam modelēt relatīvos atribūtus. Ņemot vērā apmācību datus, kas norāda, kā objektu / ainu kategorijas attiecas uz dažādām īpašībām, mēs uzzinām ranžēšanas funkciju katram atribūtam. Apgūtās ranžēšanas funkcijas prognozē relatīvo izturību katram atribūtam jaunajos attēlos. Pēc tam mēs veidojam ģeneratīvo modeli atribūtu ranžēšanas rezultātu kopīgajā telpā un ierosinām jaunu sākuma jeb nulles līmeņa apmācības formu (zero-shot learning), kurā novērotājs neredzēto objektu kategoriju sasaista ar iepriekš redzētiem objektiem, izmantojot atribūtus (piemēram, “lāči ir niknāki nekā žirafes”).Tālāk mēs parādām, kā piedāvātie relatīvie atribūti ļauj iegūt daudz bagātīgāku tekstuālo aprakstu jauniem attēliem, kas praksē ir daudz precīzāki cilvēku interpretācijai. Mēs demonstrējam pieeju sejas un dabisko ainu datu kopām un parādām tās acīmredzamās priekšrocības salīdzinājumā ar tradicionālajiem bināro atribūtu prognozēšanas veidiem šiem jaunajiem uzdevumiem.

Motivācija

Binārie atribūti ir ierobežojoši un var būt nedabiski. Iepriekšminētajos piemēros attēlu augšējā rindā kreisajā pusē un augšējā rindā labajā pusē var raksturot kā dabisku attēlu un cilvēka veidotu, tad kā jūs raksturotu attēlu augšējā rindā centrā? Vienīgais jēgpilnais veids, kā to raksturot, ir attiecībā uz pārējiem attēliem: tas ir mazāk dabisks nekā attēls kreisajā pusē, bet vairāk nekā attēls labajā pusē.

Priekšlikums

Šajā darbā mēs piedāvājam modelēt relatīvos atribūtus. Pretstatā atribūta esamības prognozēšanai, relatīvs atribūts norāda tā stiprumu attēlā attiecībā pret citiem attēliem. Papildus tam, ka relatīvie atribūti ir dabiskāki, tie piedāvā arī daudz bagātīgāku saziņas veidu, tādējādi ļaujot piekļūt daudz detalizētākai novērošanai  (un tādējādi potenciāli lielākai atpazīšanas precizitātei), kā arī ļauj radīt daudz informatīvākus jaunu attēlu aprakstus.

Mēs izstrādājam pieeju, kurā tiek apgūta katra atribūta ranžēšanas funkcija, ņemot vērā nosacītos līdzības ierobežojumus piemēru pāriem (jeb – daļēju sakārtošanu dažiem piemēriem). Apgūtā ranžēšanas funkcija var novērtēt attēlu reāli vērtējamu rangu, norādot relatīvo stiprumu atribūta esamībai tajā.

Mēs iepazīstinām ar jaunu nulles līmeņa (zero-shot learning) apmācību un attēla aprakstu formām, kas izmanto nosacīto atribūtu prognozes.

Pieeja

Relatīvo atribūtu apgūšana: katrs relatīvais atribūts tiek apgūts, iemācoties sarindot formulējumu ar doto salīdzinošo uzraudzību, kā attēlots zemāk:

Zemāk ir attēlota atšķirība starp plašas robežas ranžēšanas funkcijas apmācību (pa labi), kas izpilda vēlamo secību apmācības punktos (1-6), un plašas robežas binārā klasifikatora apmācību (pa kreisi), kas atdala tikai divas klases (+ un -) un nav obligāti jāsaglabā vēlamais kārtojums punktos:

Jauna nulles līmeņa mācīšana: mēs pētām šādus iestatījumus

  • N kategorijas kopā: S – redzētās kategorijas (ir pieejami saistītie attēli) un U – neredzētās kategorijas (šīm kategorijām nav pieejami attēli)
  • S – redzētās kategorijas tiek aprakstītas attiecībā viena pret otru, izmantojot atribūtus (ne visiem kategoriju pāriem jābūt saistītiem ar visiem atribūtiem)
  • U – neredzētās kategorijas tiek aprakstītas attiecībā uz redzētajām kategorijām (apakškopu) atribūtu (apakšgrupas) izteiksmē.

Vispirms mēs apmācām relatīvo atribūtu kopumu, izmantojot doto novērojumu redzētās kategorijās. Šos atribūtus var arī iepriekš apmācīt, izmantojot ārējos datus. Pēc tam mēs izveidojam ģeneratīvo modeli (Gausa) katrai redzētajai kategorijai, izmantojot relatīvo atribūtu atbildes uz attēliem no redzētajām kategorijām. Pēc tam mēs izsecinām neredzētu kategoriju ģeneratīvo modeļu parametrus, izmantojot to relatīvos aprakstus attiecībā uz redzētajām kategorijām. Tālāk ir parādīta vienkāršā pieeja, kuru mēs šim nolūkam izmantojam:

Testa attēls kategorijai tiek piešķirts ar maksimālu varbūtību skaitu.

Automātiska attēlu relatīvo tekstuālo aprakstu ģenerēšanā: Ņemot vērā aprakstāmo attēlu I, mēs novērtējam visas iemācītās ranžēšanas funkcijas uz I. Katram atribūtam mēs identificējam divus atsauces attēlus, kas atrodas abās I pusēs, tie nav pārāk tālu vai pārāk tuvu no I. Pēc tam attēlu I apraksta attiecībā uz šiem diviem atsauces attēliem, kā parādīts zemāk:

Kā redzams iepriekš, papildus attēla aprakstam attiecībā pret citiem attēliem mūsu pieeja var arī aprakstīt attēlu attiecībā pret citām kategorijām, iegūstot tīri tekstuālu aprakstu. Acīmredzami, ka relatīvie apraksti ir precīzāki un informatīvāki nekā parastais binārais apraksts.

Eksperimenti un rezultāti

Mēs veicam eksperimentus ar divām datu kopām:

(1) Āra ainas atpazīšana (OSR), kurā ir 2688 attēli no 8 kategorijām: C piekraste, F mežs, H šoseja, I pilsētā, M kalns, O atvērtā valsts, S iela un augstceltne T. Attēla attēlošanai mēs izmantojam kopsavilkuma funkcijas.

(2) Sabiedrībā zināmu cilvēku seju (PubFig) apakškopa, kurā ir 772 attēli no 8 kategorijām: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V un Zac Efron Z. Attēlu attēlošanai mēs izmantojam savienotas būtības un krāsu pazīmes.

Katrai datu kopai izmantoto atribūtu saraksts, kā arī bināro un relatīvo atribūtu piezīmes ir parādītas zemāk:

Nulles-līmeņa apmācības:

Mēs salīdzinām mūsu piedāvāto pieeju ar divām bāzes līknēm. Pirmā ir uz rezultātiem balstīti relatīvie atribūti (SRA). Šī bāzes līkne ir tāda pati kā mūsu pieeja, izņemot to, ka klasifikācijas funkcijas punktu skaita vietā tiek izmantoti binārā klasifikatora rādītāji (binārie atribūti). Šī bāzes līkne palīdz novērtēt nepieciešamību pēc ranžēšanas funkcijas, lai vislabāk modelētu relatīvos atribūtus. Otra bāzes līkne ir tiešo atribūtu prognozēšanas (DAP) modelis, kuru ieviesa Lampert u.c. 2009. gadā CVPR. Šī bāzes līkne palīdz novērtēt relatīvās pieejas priekšrocības attiecībā pret kategoriju pieejām. Mēs novērtējam šīs pieejas mainīgam neredzētu kategoriju skaitam, mainīgam datu apjomam, kas tiek izmantots atribūtu apmācībai un mainīgam atribūtu skaitam, ko izmanto neredzētu kategoriju aprakstīšanai, kā arī mainīgam “vaļības” līmenim neredzētu kategoriju aprakstā. Sīkāka informācija par eksperimentāliem iestatījumiem ir atrodama mūsu pētījumā. Rezultāti ir parādīti zemāk:

Automātiski ģenerētu attēlu apraksti:

Lai novērtētu relatīvā attēla aprakstu kvalitāti attiecībā pret bināriem analogiem, mēs veicām cilvēku pētījumu. Mēs izveidojām attēla aprakstu, izmantojot mūsu pieeju, kā arī sākotnējos bināros atribūtus. Mēs iepazīstinājām pētījuma dalībniekus ar šo aprakstu kopā ar trim attēliem. Viens no trim attēliem bija aprakstītais attēls. Dalībnieku uzdevums bija sarindot trīs attēlus tādā secībā, kas, viņuprāt, visprecīzāk atbilda aprakstam. Jo precīzāks apraksts, jo lielāka iespējamība dalībniekiem identificēt pareizo attēlu. Turpinājumā parādīta dalībnieku uzdevuma ilustrācija:

Pētījuma rezultāti ir parādīti zemāk. Mēs redzam, ka dalībnieki, izmantojot mūsu piedāvātos relatīvos atribūtus, var noteikt pareizo attēlu precīzāk, salīdzinot ar binārajiem atribūtiem.

Attēlu bināro aprakstu, kā arī aprakstu piemēri, kas attiecas uz kategorijām, ir parādīti zemāk:

AttēlsBinārs raksturojumsRelatīvs raksturojums
nav dabisksnav atvērtsperspektīvavairāk dabisks nekā augstceltne, mazāk dabisks nekā mežsvairāk atvērts nekā augstceltne, mazāk atvērts nekā piekrastevairāk perspektīva nekā augstceltne 
nav dabisksnav atvērtsperspektīvavairāk dabisks nekā pilsēta, mazāk dabisks nekā šosejavairāk atvērts nekā iela, mazāk atvērts nekā piekraste
vairāk perspektīva nekā šoseja, mazāk perspektīva nekā pilsēta
dabisksatvērtsperspektīvavairāk dabisks nekā augstceltne, mazāk dabīgs nekā kalnsvairāk atvērts nekā kalna, mazāk perspektīva nekā atvērtavalsts 
balstsnav smaidsredzamapiere

vairāk Balts nekā AlexRodriguez
vairāk Smaids nekā JaredLeto, mazāk Smaids nekā ZacEfron
vairāk RedzamaPiere nekā JaredLeto, mazāk RedzamaPiere nekā MileyCyrus
balstsnav smaidsnav redzamapierevairāk balts nekā AlexRodriguez, mazāk Balts nekā MileyCyrus
mazāk Smaids nekā HughLaurie
vairāk RedzamaPiere nekā ZacEfron, mazāk RedzamaPiere nekā MileyCyrus
nav jauns
biezasuzacisapaļaseja
vairāk Jauns nekā CliveOwen, mazāk Jauns nekā ScarlettJohansson
vairāk BiezasUzacis nekā ZacEfron, mazāk BiezasUzacis nekā AlexRodriguez
vairāk ApaļaSeja nekā CliveOwen, mazāk ApaļaSeja nekā ZacEfron

Dati

Mēs piedāvājam apgūtos relatīvos atribūtus un to prognozes divām mūsu pētījumā izmantotajām datu kopām: Āra ainas atpazīšana (OSR) un Sabiedrībā zināmu cilvēku sejas (PubFig) apakškopa.

LASĪT

Lejupielādēt (v2)

Relatīvo sejas atribūtu datu kopa. Tas satur anotācijas 29 relatīviem atribūtiem 60 kategorijās no Sabiedrībā zināmu cilvēku seju (PubFig) datubāzes.

Kods

Mēs modificējām Olivier Chappelle RankSVM ieviešanu, lai apmācītu relatīvos atribūtus ar līdzības ierobežojumiem. Mūsu modificētais kods ir atrodams šeit. 

Ja izmantojat mūsu kodu, lūdzu, citējiet šo pētījumu:

D. Parikh and K. Grauman

Relative Attributes

International Conference on Computer Vision (ICCV), 2011

Demo

Šeit var atrast dažādu relatīvo atribūtu lietojumprogrammu demo-versijas. Šo pieteikumu apraksts atrodams šeit.

Publicitātes

D. Parikh un K. Grauman

Relative Attributes

International Conference on Computer Vision (ICCV), 2011. (Mutiski)

Marr Prize (Best Paper Award) Winner

[slaidi] [runa(video)] [plakāts] [relatīvo aprakstu demo]

Citi mūsu pētījumi, kur izmantoti relatīvie atribūti: 

A. Biswas un D. Parikh

Simultaneous Active Learning of Classifiers & Attributes via Relative Feedback

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013

[projekta weblapa un dati] [plakāts] [demo]

A. Parkash un D. Parikh
Attributes for Classifier Feedback

European Conference on Computer Vision (ECCV), 2012 (Mutiski)

[slaidi] [runa(video)] [projekta weblapa un dati] [demo]

A. Kovashka, D. Parikh un K. Grauman
WhittleSearch: Image Search with Relative Attribute Feedback
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012
[projekta weblapa] [plakāts] [demo]

D. ParikhA. Kovashka, A. Parkash un K. Grauman
Relative Attributes for Enhanced Human-Machine Communication
AAAI Conference on Artificial Intelligence (AAAI), 2012 (Mutiski)