Számítógépes látórendszerek - Ellenőrző kérdések: Számítógépes látás alapok

A VIK Wikiből
A lap korábbi változatát látod, amilyen Major Péter (vitalap | szerkesztései) 2015. április 15., 19:21-kor történt szerkesztése után volt. (→‎Gamma korrekció: ábra)


Ismertesse a kép fogalmát: mit nevezünk képnek, milyen képleírási lehetőségek állnak rendelkezésünkre?
Mit jelent a videofolyam?

Kép: Vizuális információkat tartalmazó összefüggő adathalmaz.

Leírás általában pixel/voxel tömbként történik. 2 (pixel) vagy 3 (voxel, volume pixel) dimenziós képpontokat használunk, vonalkamera esetén 1 dimenziósakat.

Egyéb leírási formák:

  • Láncok (pl. RLE)
  • Topológiai leírások (gráfok)
  • Relációs struktúrák
  • Hierarchikus leírások

Videófolyam: Tipikusan képek sorozata, mozgásleírás (pl. MPEG4 tömörítés) címesemények sorozata. Általában ezt dolgozzuk fel, van (a priori) ismeretünk az előző képről, változást elemezzük.

Ismertesse a fényérzékelés fontosabb eszközeit.
Részletezze a CCD és a CMOS érzékelők működését, típusait, előnyeit és hátrányait.

Fényérzékelés eszközei:

  • Fotodióda
    • CCD
    • CMOS (Főként APS)
  • Fotoellenállás
  • Kvantumeszközök
  • Kémiai érzékelők
  • Hőmérsékletmérésen alapuló eszközök

CCD

1969-ben fejlesztették ki a Bell Labsnál, analóg léptetőregiszternek. Működésének lényege, hogy adott órajel hatására a bemeneti oldalon levő töltést mozgásra lehet bírni, azaz léptetni lehet a kimeneti oldal fele. Gyorsan kiderült, hogy nem csak elektronikusan lehet feltölteni a regisztereket, hanem a fény fotonjaival is. 1970-re képesek voltak képet létrehozni az új esz-közzel, s így megszületett a CCD. Többfajta CCD-vel találkozhatunk a mai gépekben. A fent leírt eszköz hivatalos neve a Full-Frame Transfer (FFT) CCD. Ilyen érzékelő szerepel pl. a Canon 1D-ben vagy az Olympus E1-ben is. Gyakran a sebesség növelése érdekében nem egy kiolvasási vonalat (kiolvasó regisztert) használnak, hanem többet, ennek neve a Frame Transfer CCD. Ezeknél az érzékelőknél nincs lehetőség elektronikus zár alkalmazására. A másik, elterjedtebb CCD típus az interline CCD. A fő különbség a kettő közt, hogy a Full-Frame Transfer CCD nem tud addig újabb képet készíteni, amíg a kiolvasás végre nem hajtó-dik, ami azért időbe telik. Ez egy tükörreflexes, élőkép nélküli gépnél még nem probléma, de mi van akkor, ha folyamatos képet szeretnénk látni, pl. kompakt fényképezőgépeknél vagy videokameráknál? Ilyenkor jön az interline CCD a képbe.

Összefoglalva:

  • Fullframe-Transfer CCD pixelenként olvasás (külső zár szükséges)
  • Frame-transfer CCD fotoérzékelők egyszerre CCD-re
  • Interline CCD CCD a fotoaktív oszlopok között (rosszabb felbontás)

Előnye

  • Nagy érzékenység
  • Kevés zaj
  • Interline felépítés esetén elektronikus zár megvalósítható (ezt ki is használták pl. a Ni-kon D70-nél is, ahol 1/500s-tól már nem a mechanikus, hanem az elektronikus zár működik).

Hátránya

  • Bonyolult előállítás, emiatt drága
  • A kiolvasási elektronikának több kiolvasási csatorna esetén tökéletesen megegyezőnek kell lennie, egyébként sávosodás lép fel (banding)
  • Könnyen létre jöhet az ún. Blooming effektus: ha egy elektródán túl sok töltés halmo-zódik fel, egyszerűen átfolyik a mellette levő elektróda területére (ez ellen számos anti-blooming eljárás létezik, általában a CCD-k adatlapján szerepel ennek a hatékonysága)
  • Magas fogyasztás, emiatt nagyobb melegedés (és nagyobb termikus zaj)

CMOS

A CMOS-nál a megnevezés csak és kizárólag a gyártástechnológiát jelöli. Ahogy a leírásból is látszik, az első esetben aktív pixelekről beszélünk, azaz minden egyes képpont saját erősítővel rendelkezik (töltés-feszültség konverter, amely a CCD-nél a kiolvasó egységben volt megtalálható). A kiolvasás mátrix elven történik, minden képpontot külön-külön meg lehet címezni. Mivel minden egyes pixel külön címezhető, illetve a vezetékhálóza-ton keresztül bármilyen sorrendben összekapcsolható a chip további erősítőfokozataival, na-gyon könnyű a kép egy részletét vagy éppen egy alacsonyabb felbontású képet is kiolvasni. A CMOS érzékelőre nagyon könnyű integrálni egyéb áramköri elemeket. Általában a CMOS érzékelők tartalmazzák az analóg-digitális átalakítókat is (míg ez a CCD-nél külön áramkör volt), sőt egyes esetben elő-feldolgozást is végeznek (szenzor szintű zajszűrés például). A nagyobb integrálásnak köszönhetően alacsonyabb az előállítási költségük, mint CCD társaik-nak.

Hátrányok:

  • Nagyobb zaj: a pixelek egyedi erősítőit nem lehet pontosan beállítani, ezért ezek extra zajt adnak a képhez (pix-pattern noise). Erre a problémára a Canon talált tökéletes megoldást hardver szinten (és lassan minden gyártó alkalmaz hasonló megoldásokat),
  • Interferencia érzékenység: a nagy számú aktív elem sokkal érzékenyebb a környezetből érkező elektromágneses zavarokra, mint a CCD,
  • Az aktív elemek csökkentik az érzékelő hatásos méretét (mint az Interline CCD-knél), de itt is segítséget nyújtanak a mikrolencsék,
  • Az elektronikus zár nem, vagy nehezen valósítható meg. Jól látható a CMOS érzéke-lőkkel készült videofelvételeken ennek a hatása: a kiolvasási sebesség miatt jól érzé-kelhetően elcsúszik a kép (nem azonos időpillanatban történik a teljes kép kiolvasása meg, mint a CCD-knél), és ha pl. egy mozgó autót fényképezünk, akkor az eredetileg kb. téglatest forma szétcsúszik paralelogrammává.

Előnyök:

  • A nagy integrálhatóság miatt alacsony ár,
  • Kis fogyasztás, kisebb hőtermelés (alacsonyabb termikus zaj).
  • Kisebb késleltetés
  • Nagyobb sebesség

Forrás

Ismertesse a színlátás alapjait.
Milyen módszereket használunk több módusú (színes) érzékelésre?
Mit jelent a színhőmérséklet?

Emberi színlátás

A nappali látás érzékelőelemeinek, a csapocskáknak három fajtájuk van. Az egyes csapocskák a színüknek megfelelő hullámhossztartományban nyelik el a fényt. Az elnyelt fény hatására létrejövő reakciót – ami a látásérzetet kelti. Forrás

Színhőmérséklet

A látható fény egy jellegzetessége. Egy fényforrás színhőmérsékletét az általa okozott színérzet és egy hipotetikus feketetest-sugárzó által létrehozott színérzet alapján határozzák meg. Izzólámpák esetében, lévén, hogy a fény izzásból származik, a színhőmérséklet jól egybe esik az izzószál hőmérsékletével. A nem hőmérsékleti sugárzás elvén működő fényforrások, mint például a fénycsövek esetében közvetlen fizikai jelentése nincsen. Ezért ilyenkor inkább korrelált színhőmérsékletről beszélünk. Elterjedt jelölése: CCT (Correlated Color Temperature) Forrás

Ismertesse a képi tartalom fontosabb jellemzőit, korlátait:
Felbontás, bitmélység, interlace, mozgás, digitális zaj, tömörítési problémák.

Felbontás

A képfelbontás a képen belüli képpont-távolságot mutatja. Mértékegysége a képpont/hüvelyk (angolul pixels per inch, ppi). Ha egy kép felbontása 72 ppi, az azt jelenti, hogy egy négyzethüvelyknyi területen 72×72 = 5184 képpont található. Nagyobb felbontás esetén jobb a kép minősége, azaz több részlet jelenik meg rajta. A képfelbontás elméleti érték, ugyanis az, hogy milyen minőségű képet kapunk, függ a kép fizikai méretétől és a kimeneti eszköz felbontásától is. Forrás

Bitmélység

A bitmélység adja meg, hogy a kép egyes képpontjaihoz mennyi színinformáció áll rendelkezésre. Minél több a képpontonkénti információ, annál több szín jeleníthető meg a képen, és annál pontosabb a színmegjelenítés. Az 1-es bitmélységgel rendelkező képhez például két lehetséges érték tartozik: a fekete és a fehér. A 8-as bitmélységgel rendelkező kép lehetséges értékeinek száma , vagyis 256. A 8-as bitmélységgel rendelkező, szürkeárnyalatos módú képen 256 szürkeárnyalat szerepelhet. A RGB rendszerű képek három színcsatornából állnak. Egy (csatornánként) 8 bites RGB-kép esetén 256 érték tartozik minden csatornához, ami azt jelenti, hogy a kép több mint 16 millió lehetséges színértékkel rendelkezik. A csatornánként 8 bites (8 bpc) RGB képeket szokták 24 bites képeknek is hívni (8 bit x 3 csatorna = 24 adatbit képpontonként). Forrás

Interlace

A televíziózásban a sávszélesség kihasználása, optimális kitöltése nagy feladat. Mivel ezeket a vonalakat az adók üzemeltetői pénzből tartják fenn, a hatékonyság elengedhetetlen követelmény. A sávszélesség igény csökkentésének egyik megoldásaként hozták létre az interlaced (sorváltott, összefűzött) megjelenítést. Az eljárás célja, hogy minőségvesztés nélkül (vagy minimális veszteség mellett) a lehető legkisebb sávszélesség felhasználásával lehessen az adásokat továbbítani. Az elgondolás azon az alapon nyugszik, hogy amennyiben egy teljes képkockát (keret, frame) felbontunk két fél keretre, így egy időegység alatt csupán egy fél keretet kell átvinni, amit aztán a vevő készülék többszöri villogtatással épít egybe a második fél kerettel, így szemünk nem veszi észre az eltérést és egészként érzékeli a képet. Első körben csupán minden páratlan pixelsort küldenek át, majd a párosakat. A hagyományos CRT tv-k, monitorok képesek megjeleníteni az ilyen jeleket, átlagosan 50-60 félkép/másodperc sebességgel, így a teljes kép 25-30 fps sebességű lesz. Forrás

Digitális zaj

A digitális fényképezőgépek érzékelőinek alapvető építőeleme a photosite. A szenzornak ezen része érzékeli valójában a fényt. Minden pixelre legalább egy photosite jut (van ahol kettő). Ezek az elemi egységek a fényt olyan módon érzékelik, hogy az expozíció ideje alatt rájuk eső fotonokat elektronokká (töltéssé) alakítják. Ez a töltés az expozíció ideje alatt halmozódik fel és megőrződik az expozíció után. Ha az expozíció befejeződött, akkor minden egyes photosite töltését megmérik, majd a mért értéket digitális értékké alakítják (digitalizálják). Ezt a mérési folyamatot nevezzük kiolvasásnak. A zaj forrásai A digitális fényképezőgépekkel készített képek zaja több különböző forrásból ered:

  • Sötét zaj: A Sötét Zaj (Dark Noise) a szenzorban (pontosabban a szilícium-szilíciumdioxid átmeneteknél) a hőtől keletkezett szabad elektronok felhalmozódása a szenzor photosita-jaiban. Ez jellegzetes "grízes" zajként jelentkezik a képen. Az ehhez kapcsolódó kifejezés még a "dark current", amely ezeknek az elektronoknak a keletkezési sebességét jelenti.
  • Kiolvasási zaj (Bias Noise): Ahhoz hogy képet alkossunk a szenzor photosite-jaiban tárolt töltésekből, minden egyes photosite töltését meg kell mérni és a mért értéket digitalizálni kell. Ez a mérés a szenzor kiolvasási folyamatának része. Azonban az eljárás távolról sem tökéletes. Az egyes photosite-ok töltése túlságosan kicsi ahhoz, hogy erősítés nélkül meg lehessen mérni, és ez az erősítés a probléma (zaj) forrása. A kiolvasást végző erősítők valamennyi zajt elengedhetetlenül hozzáadnak a photosite által tárolt és általuk felerősített töltéshez.
  • Foton zaj: A foton zajt a szenzorra érkező fotonok egyenetlen "érkezési ideje" okozza. Ha a fotonok konstans rátában érkeznének, (mintha csak egy szállítószalag szállítaná őket a photosite-okba) akkor nem lenne foton zaj. Azonban a valóságban a fotonok rendszertelenül érkeznek. Az egyik photosite elég szerencsés ahhoz, hogy az expozíció ideje alatt 100 foton találja el, addig előfordulhat, hogy a mellette lévőt, ugyanazon idő alatt csak 80 foton éri el. Ha egy egyenletesen megvilágított felületet fényképezünk, akkor a foton zaj, a szomszédjához viszonyítva, rendellenesen sötét pixelek formájában jelentkezik.
  • Véletlen zaj: Az előbbi három okon felüli zajt általában a fényképezőgép elektronikájában fellépő feszültség vagy áramingadozások, elektromágneses interferencia és még sok más tényező okozhatja. A véletlen zaj képről képre más és más. Azonban bármi is okozza, általában elenyészően kicsi.

Forrás

A fenti zaj típusok Gauss zajok, mivel lényegében korrelálatlan valószínűségi változókból erednek. Érdemes még megemlíteni a még a só-bors zajt, amely véletlenszerű helyeken fekete vagy fehér pixeleket jelent. Nem Gauss jellegű hiba (forrás), nem is javítható azokhoz hasonlóan, hanem medián szűrővel érdemes. Jellemzően az ADC és az átvitel hibái okozzák (forrás).

Tömörítési problémák

Tömörítési hibának ebben a cikkben a képek, hangok, videók veszteséges tömörítése során fellépő észrevehető minőségromlást nevezzük. Technikailag a tömörítési hiba általában a veszteséges tömörítés kvantálási lépése során fellépő probléma. Transzformációs kodekeknél általában a kódoló transzformációs terének bázisára jellemző a hiba. A blokk-alapú DCT transzformáció során, amit például az elterjedt JPEG tömörítés használ, többfajta tömörítési hiba szokott előfordulni. Ezek közé tartozik az elmosódott területen kontúrosodás megjelenése, a görbe vonalak mentén lépcsőzetes zaj megjelentése, „légypiszkok” a szélek mentén, sakktáblaszerű hiba (másképpen blokkosság) a kép „mozgalmas” részein. Forrás

Mit jelent a színtér?
Miért van szükség többféle színtérre?
Mit jelent a szürkeárnyalatosítás?
Röviden ismertesse a fontosabb színtereket, azok feladatát.

Színtér

A színterek a színek ábrázolására használható virtuális térbeli koordináta-rendszer, ahol az egyes színek tulajdonságait azok koordinátái fejezik ki. Színességi koordinátákból épül fel a CIE XYZ színtér. Valamennyi további színtér különbözik ettől; koordinátái általában: egy színezeti, egy világossági és egy színtelítettségi jellemző. A színtérben az ábrázolható színek valamilyen rend szerint kerülnek elhelyezésre (például az alapján, hogy a színtér alapszíneinek milyen arányú keverésével állíthatók elő), és a pozíciójukat meghatározó koordinátákkal kerülnek azonosításra (például az RGB színtérben a (255,0,128) koordinátán a maximális vörös, nulla zöld, és a maximális felének megfelelő kék komponensek összeadásából keletkező szín található). Forrás

Többféle színtér

[tipp, bővítsd, egészítsd ki, korrigáld?]

A kamerák által rögzített színes kép általában RGB színtérben készül, mivel az eltérő hullámhosszokhoz tartozó érzékelés gyártástechnológiailag megoldható.

  • Az emberi az R, G és B komponenseket nem azonos súllyal/felbontással érzékeli. Ezt tömörítési és adatátviteli eljárások előszeretettel ki is használják.
  • A számítógépes képfeldolgozás sem tipikusan RGB-ben megoldható.

A (fényesség, színezet, telítettség) leképezések az alkalmazások jelentős részében jobban használhatók. A leképezést többféleképpen meg lehet valósítani, ezért létezik HSL, HSI, HSV, L*u*v stb.

Megjegyzés: A mai TV-k tartalmazzák az alkalmazott LED-ek/LCD stb karakterisztikáinak megfelelő transzformációhoz szükséges adatokat (Chromaticity coordinates), hogy a bemenő jelet a forrás minden kijelzőn a lehetőségekhez mérten azonosan jeleníthesse meg. Ehhez is szükséges többféle színtér, minden kijelző típushoz saját, lényegében.

Színterek

  • A televíziós technikában az RGB komponenseket veszi fel a kamera, ebből egy olyan világossági értéket (jele Y, neve luma) képeznek, amely kompatibilis a fekete–fehér televízió világossági értékével. Ezek után képezik az R-Y és a B-Y színkomponenseket. Így az analóg televízió egy világossági és két színességi (chroma) jelet továbbít (ez három merőleges térbeli vektor). Megjegyzés: a színkomponenseket magasabb frekvencián modulálják a világosság fölött, ami a fekete-fehér megjelenítőn nem látszik). Az alapötlet egyébként a mai digitális rendszerekben is használatos, pl. YCbCr színtérnél a színezeti adatokat 2-4 pixelre összevonhatják, hogy csökkenjen a szükséges sávszélesség (az emberi szem pedig alig veszi észre az eltérést).
  • A képfeldolgozás technikájában a HSL, a HSV és még további színterek 1970 után
  • Számítástechnikában: RGB és változatai (sRGB, AdobeRGB). A digitális fényképezőgépek legtöbbje az sRGB (standard RGB) rendszert használja. Az ADOBE virtuális alapszíningerek segítségével kiterjeszett színteret (wide gamut) használ. Az RGB additív színkeverési eljárás, amely azzal definiálja a színt, hogy a 3 alapszínű fényből mennyit kell összekeverni a kívánt szín eléréséhez.
  • Nyomdatechnikában: CMYK. A három- és négyszínnyomás technikája Jacob Christoph le Blon rézmetsző mestertől származik (1667–1741) Blon eredeti alapszínei az RYBK (vörös, sárga, bíbor, és a kulcsszín: a fekete) voltak. Abban az időben nem volt még elegendően tiszta az additív és a szubtraktív színkeverés közti különbség (a könyvnyomtatás vonatkozásában).
  • Négy alapszínnel dolgozó szubtraktív színkeverési technika.

Mit jelent a színkorrekció?
Ismertesse a fontosabb szín és fényességkorrekciós eljárásokat: Gamma korrekció, kontraszt, fényesség.
Miért van ezekre szükség, mire jók?

Gamma korrekció

A kontraszt értékeket optimalizáló eljárás. A Gamma-korrekcióval a kép fényessége és színeinek élessége szabályozható. Ezáltal a pontos részletek a sötétben játszódó jeleneteknél jobban láthatók, és a kép mélysége is megmarad. Ha a Gamma korrekció értéke magas, a kép világosabb tónusú lesz kevésbé telt színekkel, míg ellenkező esetben sötétebb árnyalatok és valamivel teltebb színek jellemzik a képet.

Kontraszt

A leggyakrabban használt algoritmus a hisztogram kiegyenlítése (histogram equalization- HE). A módszer az intenzitások előfordulási gyakoriságának függvényében úgy nyújtja a hisztogramot, hogy az kitöltse a rendelkezésére álló intenzitástartományt és a szomszédos intenzitások távolsága azok előfordulási gyakoriságának függvényében alakuljon. Forrás
A kép világos és sötét részei közötti tónuskülönbség. Ha két kép azonos motívumot ábrázol és az egyiken két adott részlet tónusának különbsége nagyobb mint a másikon, akkor ennek nagyobb a kontrasztja.

Fényesség

Fényesség (Lightness), relatív világosságérzet, a felület becsült reflektanciája vagy transzmittanciája.

Ismertesse a képi tartalom tárolásának fontosabb problémáit, lehetőségeit, módszereit.
Hogyan használjuk a képi adatbázisokat?

Képek tárolása

  • Tömörítetlen: BMP, PNM
  • Veszteség nélkül: GIF, JPEG-LS/2000, PNG, TIFF, H.264 lossless...
  • Veszteséges: JPEG, PNG, H.264...
  • Konténer formátumok: (PNG), TIFF, AVI, MOV, MP4, OGG, WMV...

Képi adatbázisok

  • Alapadatok: Méret, felvétel/módosítás időpontja
  • Méréseken alapuló adatok (pl. objektumok száma, színek, méretek)
  • Intelligens felismerés (pl. ember, virág, gépjármű)
  • Jogosultságok
  • Felhasználói kulcsszavak
  • Miniatűrök

Forrás