Vilka är pVilka är principerna för 3D-maskinseende? principerna för 3D-maskinseende? - Blogg

3D-vision är ett tvärvetenskapligt område som involverar datorgrafik, datorseende och artificiell intelligens. Det syftar till att göra det möjligt för maskiner att förstå och bearbeta information i tre-dimensionellt utrymme, för att uppnå djupuppfattning, igenkänning och förståelse av objekt och scener.

Huvuduppgifter

3D-rekonstruktion

Djupuppskattning av 3D-scener eller digital sampling av objektytor, samt bearbetning och visning av 3D-data; monokulär rekonstruktion, binokulär rekonstruktion, strukturerad ljus-baserad rekonstruktion, laser-baserad rekonstruktion; stor-3D-rekonstruktion, mobil 3D-rekonstruktion.

Pose uppskattning

Beräkning av position och orientering för kameror eller objekt i tre-dimensionellt fysiskt utrymme, och realtidsspårning-.

3D-förståelse

Objektdetektering, igenkänning och hämtning, såväl som segmentering och semantisk märkning av scener eller objekt.

Arbetsprinciper

3D-visionsavbildning är en av de viktigaste metoderna för informationsuppfattning i industrirobotar och kan delas in i optiska och icke-optiska avbildningsmetoder. För närvarande är optiska metoder de mest använda.

Time-of-Flight-metod (TOF).

Denna metod beräknar avståndet till ett objekt genom att mäta tidsskillnaden mellan ljusemission och mottagning. Med en TOF-kamera som exempel använder varje pixel tidsskillnaden för ljusflygning för att få fram djupet på objektet. I klassiska mätmetoder börjar detektorsystemet tajma när det avger en ljuspuls, lagrar tur- och returtiden när det tar emot målljusekot och uppskattar målavståndet enligt en formel.

Den är uppdelad i direkt TOF (DTOF) och indirekt TOF (I-TOF). DTOF används vanligtvis i enkel-punktsavståndssystem, och för att uppnå områdes-vid 3D-avbildning kräver ofta skanningsteknik; I-TOF extrapolerar indirekt tiden för tur och retur från tidsstyrda-mätningar av ljusintensitet, vilket eliminerar behovet av exakt timing, och är för närvarande en kommersialiserad lösning för elektroniska och optiska blandare baserade på TOF-kameror. TOF-avbildning kan användas för stort synfält, lång-avstånd, låg-precision och{10}}låg{10}kostnad 3D-bildinsamling, och används för miljöuppfattning i intelligenta obemannade system (som robotar, obemannade fordon, drönare, etc.).

Structured Light Projection 3D Imaging

Strukturerad ljusprojektion 3D-avbildning är för närvarande den huvudsakliga metoden för 3D-synuppfattning i robotar. En projektor projicerar ett specifikt strukturerat ljusbelysningsmönster på målobjektet, såsom ränder eller gråkodsmönster, och en kamera fångar bilden som moduleras av målet. På grund av vågorna på föremålets yta deformeras det strukturerade ljusmönstret på föremålets yta. Genom att bearbeta bilder och använda visuella modeller för att jämföra mönstren före och efter deformation, och analysera mönsterförvrängningen, kan den tre-dimensionella koordinatinformationen för varje punkt på målobjektets yta beräknas.

I robotbaserade hand-ögonsystemapplikationer, för scenarier där hög 3D-mätnoggrannhet inte krävs (som palletering, depalletering och 3D-grepp), är metoden att projicera pseudo-slumpmässiga fläckmönster för att få 3D-målinformation ganska populär. Denna metod används ofta vid industriell inspektion och 3D-modellering och kan snabbt få 3D-data av objektets yta. Ett strukturerat ljusbildsystem består av flera projektorer och kameror. Vanliga strukturella former inkluderar: enkelprojektor-en kamera, enkelprojektor-dubbel kamera, enkelprojektor-flera kameror, enkamera-dubbla projektorer och enkamera-flera projektorer.

Den grundläggande arbetsprincipen för strukturerad ljusprojektion 3D-avbildning är som följer: projektorn projicerar ett specifikt strukturerat ljusbelysningsmönster på målobjektet, kameran fångar bilden som moduleras av målet, och sedan erhålls 3D-informationen för målobjektet genom bildbehandling och visuella modeller. Vanliga typer av projektorer inkluderar: flytande kristaller (LCD), digital ljusmodulationsprojektion (DLP: såsom digitala mikrospegelenheter (DMD)) och direktprojektion med laser-LED-mönster.

Baserat på antalet strukturerade ljusprojektioner kan 3D-bilder med strukturerad ljusprojektion delas upp i metoder för enstaka-3D-bilder och 3D-metoder med flera-bilder. Enkelt-strukturerat ljus använder huvudsakligen rumslig multiplexkodning och frekvensmultiplexkodning. Vanliga kodningsformer inkluderar: färgkodning, gråskaleindexering, geometrisk formkodning och slumpmässiga fläckmönster. För närvarande, i robotbaserade hand-ögonsystemapplikationer, för scenarier där hög 3D-mätnoggrannhet inte krävs, såsom palletering, depalletering och 3D-grepp, används metoden att projicera pseudo-slumpmässiga fläckmönster för att erhålla 3D-målinformation i stor utsträckning.

Multi-shot 3D-metoder använder huvudsakligen tids-multiplexkodning. Vanliga mönsterkodningsformer inkluderar: binär kodning, fler-frekvensfas-skiftande kodning och hybridkodningsmetoder (som gråkod och fas-skiftande fransar). Grundprincipen för strukturerad ljus 3D-avbildning visas i figuren nedan. Ett strukturerat ljusmönster genereras med hjälp av en dator eller en speciell optisk anordning, och projiceras sedan på ytan av föremålet som testas med hjälp av ett optiskt projektionssystem. En bildinsamlingsenhet (som en CCD- eller CMOS-kamera) används för att fånga den strukturerade ljusbilden som moduleras och deformeras av objektets yta. Bildbehandlingsalgoritmer används sedan för att beräkna överensstämmelsen mellan varje pixel i bilden och punkterna på objektets kontur. Slutligen beräknas den tredimensionella konturinformationen för objektet med hjälp av systemstrukturmodellen och dess kalibreringsteknik. I praktiska applikationer används ofta gråkodsprojektion, sinusformad fas-skiftande fransprojektion eller en hybrid 3D-teknik för gråkod och sinusformad fas-.

För grova ytor kan strukturerat ljus projiceras direkt på objektets yta för visuell avbildningsmätning; Men för 3D-mätning av mycket reflekterande släta ytor och spegelobjekt kan strukturerad ljusprojektion inte projiceras direkt på ytan som testas, och 3D-mätning kräver användning av spegelreflektionstekniker.

I detta schema projiceras fransarna inte direkt på konturen av föremålet som testas, utan snarare på en spridningsskärm, eller så används en LCD-skärm (LCD) för att direkt visa fransarna. Kameran hämtar fransinformationen som moduleras av krökningsförändringarna på den ljusa ytan genom den reflekterade ljusbanan och beräknar sedan den tre-dimensionella konturmorfologin.

Skanna 3D-bilder

Skanna 3D-bildmetoder kan delas in i scanning avstånd, aktiv triangulering och kromatisk konfokal metoder. Skanning av avstånd använder en kollimerad ljusstråle för att skanna hela målytan för 3D-mätning. Typiska avsökningsmetoder inkluderar: enkel-punkttid-av-flygmetoder, såsom kontinuerlig vågfrekvensmodulering (FM-CW) avståndsintervall och pulsavstånd (LiDAR); laserspridningsinterferometri, såsom interferometrar baserade på multi-våglängdsinterferens, holografisk interferens, vitljusinterferens och fläckinterferensprinciper; och konfokala metoder, såsom kromatisk konfokal och autofokusering.

I 3D-metoder för enkel-avståndsskanning är metoden för enkel-tid-av-flygning lämplig för lång-avståndsskanning, men mätnoggrannheten är relativt låg, vanligtvis inom millimeterområdet. Andra enpunktsskanningsmetoder inkluderar en-laserinterferometri, konfokalmikroskopi och enpunktsaktiv lasertriangulering-. Dessa metoder erbjuder hög mätnoggrannhet, men de förra kräver en kontrollerad miljö. Linjeskanning erbjuder måttlig noggrannhet och hög effektivitet. Aktiv lasertriangulering och kromatisk konfokalmikroskopi är särskilt lämpliga för 3D-mätning vid ändeffektorn på en robotarm. Aktiv triangulering bygger på principen om triangulering, med hjälp av en kollimerad stråle eller en eller flera plana strålar för att skanna målytan för 3D-mätning.

Ljusstrålen erhålls vanligtvis på följande sätt: laserkollimation, cylindrisk eller fyrkantig ytprismatisk strålexpansion, icke-koherent ljus (som vitt ljus, LED-ljuskälla) som projiceras genom små hål, slitsar (gitter) eller koherent ljusdiffraktion. Aktiv triangulering kan delas in i tre typer: enkel-punktsskanning, enkel-radsskanning och multi-radsskanning. För närvarande är de flesta kommersiellt tillgängliga produkterna för robotarmsluteffektorer enkel-punkts- och enkellinjeskanner.

I fler-avsökningsmetoder är tillförlitlig identifiering av fransnummer en utmaning. För att exakt identifiera fransnummer avbildas vanligtvis två uppsättningar av vinkelräta ljusplan med hög hastighet omväxlande. Detta möjliggör också "Flying Triangulation"-skanning, vars skannings- och 3D-rekonstruktionsprocess visas i figuren nedan. Fler-linjeprojektion och enkel-blixtbild ger en sparsam 3D-vy. Flera sekvenser av 3D-vyer genereras genom längsgående och tvärgående fransprojektionsskanning, och sedan genereras en högupplöst, fullständig och tät 3D-ytmodell genom 3D-bildregistrering.

Kromatisk konfokalmikroskopi verkar kapabel att skanna och mäta grova och släta ogenomskinliga och transparenta föremål, såsom reflekterande ytor och transparenta glasytor, och används för närvarande i stor utsträckning inom områden som 3D-inspektion av mobiltelefonskal. Kromatisk konfokal skanning har tre typer: enkel-punkt en-dimensionell mätning av absolut avstånd, skanning med flera-punkter och kontinuerlig linjeskanning. Figuren nedan visar exempel på absolut avståndsmätning och kontinuerlig linjeavsökning. Kontinuerlig linjeskanning är också en typ av arrayscanning, men med en större och tätare array av punkter.

Stereo Vision 3D-bildbehandling

Stereoveende hänvisar i allmänhet till att rekonstruera 3D-strukturen eller djupinformationen för ett målobjekt genom att ta två eller flera bilder från olika synvinklar. Visuella ledtrådar för djupuppfattning kan delas in i okulära ledtrådar och binokulära signaler (binokulär disparitet). För närvarande kan stereoseende 3D uppnås genom monokulär vision, binokulär vision, multi-seende och ljusfälts 3D-avbildning (elektronisk sammansatt ögon- eller arraykamera). Monokulär visions djupuppfattningssignaler inkluderar vanligtvis: perspektiv, brännviddsskillnader, multi-avbildning, ocklusion, skuggor, rörelseparallax, etc.

I robotseende kan det också uppnås med hjälp av spegelbilder och andra former-från-X-metoder. Binokulär syn djupperception visuella signaler inkluderar: ögonkonvergensposition och binokulär disparitet. I maskinseende används två kameror för att ta två synvinkelbilder av samma målscen från två synpunkter, och sedan beräknas skillnaden mellan motsvarande punkter i de två synvinkelbilderna för att erhålla 3D-djupinformationen för målscenen. En typisk binokulär stereoseendeberäkningsprocess inkluderar följande fyra steg: bildförvrängningskorrektion, stereobildsparkorrigering, bildregistrering och beräkning av disparitetskartor för trianguleringsomprojektering.

Multi-view vision imaging, eller multi-view stereo imaging, använder en enda eller flera kameror för att ta flera bilder av samma målscen från flera synvinklar för att rekonstruera den tre-dimensionella informationen om målscenen.

Multi-stereoavbildning används huvudsakligen i följande scenarier: att använda flera kameror från olika synvinklar för att ta flera bilder av samma målscen, och sedan använda funktions-baserad stereorekonstruktion och andra algoritmer för att få information om scendjup och rumslig struktur; med hjälp av struktur-från-rörelseteknik (SFM), med samma kamera med oförändrade inneboende parametrar, för att ta flera bilder från olika synvinklar för att rekonstruera den tre-dimensionella informationen i målscenen. Denna teknik används vanligtvis för att spåra ett stort antal kontrollpunkter i en målscen, för att kontinuerligt återställa 3D-strukturinformationen för scenen, såväl som kamerans ställning och position. Ljusfältsavbildning skiljer sig från traditionella kamerabildsprinciper. Traditionella kameror bildar en 2D-bild direkt på bildplanet efter att ljus passerar genom linsen.

Ljusfältskameror lägger till en mikrolinsarray framför sensorplanet. Ljus som faller in genom huvudlinsen passerar genom varje mikrolins igen och tas emot av den ljuskänsliga arrayen, och erhåller därigenom information om ljusstrålarnas riktning och position. Detta gör att bildresultaten kan bearbetas senare, vilket uppnår en "skjut först, fokusera senare"-effekt och möjliggör återställning av scenens tre-dimensionella struktur med hjälp av denna information. Inom områden som virtuell verklighet och förstärkt verklighet hjälper ljusfältstekniken till att ge en mer realistisk visuell upplevelse och möjliggör mer exakt tre-dimensionell uppfattning och interaktion med scenen.

Principen för ljusfälts 3D-avbildning skiljer sig strukturellt från avbildningsprinciperna för traditionella CCD- och CMOS-kameror. Traditionella kameror avbildar ljus direkt på bildplanet efter att det passerat genom linsen, vilket vanligtvis producerar en 2D-bild. Ljusfältskameror lägger till en mikrolinsarray framför sensorplanet, vilket gör att ljuset som infaller genom huvudlinsen passerar genom varje mikrolins igen och tas emot av den ljuskänsliga matrisen, och får därigenom information om ljusstrålarnas riktning och position. Detta möjliggör efterbearbetning- av bildresultaten, vilket ger en "skjut först, fokusera senare"-effekt.