Knowledge based building facade reconstruction from laser point clouds and images
Shi Pu
Publications on Geodesy 75
Delft, 2010. 133 pagina's. ISBN: 978 90 6132 319 8.
Abstract
Various applications demand realistic 3D city models. For urban
planning, analyzing in a 3D virtual reality world is much more efficient
than imaging the 2D information on maps. For public security, accurate
3D building models are indispensable to make strategies during emergency
situations. Navigation systems and virtual tourism also benefit from
realistic city models.
Manual creation of city models is undoubtedly a rather time consuming
and expensive procedure. On one hand, images are for long the only data
source for geometric modelling, while recovering of 3D geometries is not
straightforward from 2D images. On the other hand, there are enormous
amounts of objects (for example buildings) to be reconstructed, and
their structures and shapes show a great variety. There is a lack of
automated approaches to understand the building structures captured by
data. The rapid development of cities even adds to the cost of manual
city model updating. In recent years, laser scanning has been proven a
successful technology for reverse engineering. The terrestrial laser
point clouds are especially useful for documenting building facades.
With the considerable high point density and the explicit 3D coordinates
of terrestrial laser point clouds, it is possible to recover both large
structures and _ne details on building facades. The latest developments
of mobile laser scanning technology also make it more cost-effective to
take large-scale laser scanning over urban areas.
This PhD research aims at reconstructing photorealistic building facade
models from terrestrial laser point clouds and close range images, with
a largely automatic process. A knowledge base about building facade
structures is established first, where several important building
features (wall, door, protrusion, etc.) are defined and described with
their geometric properties and spatial relationships. Then constraints
for feature extraction are derived from the knowledge base. After a
laser point cloud is segmented into planar segments by surface a growing
segmentation algorithm, each segment is compared with the feature
constraints to determine the most likely feature type for each segment.
The feature extraction method works fine for all facade features except
for windows, because there are usually insufficient laser points
reflected from window glass. Instead, windows are reconstructed from the
holes on the wall features. Then outline polygons or B-spline surfaces
are fit to all feature segments, and the parts without laser points are
hypothesized according to knowledge. A complete polyhedron model is
combined from both fitted and hypothesized outlines.
Since laser data contains no colour information, the building models
reconstructed from only laser data contain only geometric information
such as vertices and edges. To obtain photorealistic results, textures
must be mapped from images to the geometric models. The fusing of laser
points and image requires accurate alignment between laser space and
image space, which is accomplished after a semi-automated process.
Because of the limitations of modelling methods, the geometry model
reconstructed from laser points may contain many errors which would
cause poor texturing effect. Therefore, significant line features
extracted from images are compared with the initial model's edges, and
necessary refinements are made to correct the model errors, or at least
make the model edges consistent with the image lines. Finally, in the
texturing stage, the texture of each model face is selected
automatically from multiple images to ensure the optimal visibility.
Texture errors caused by occlusions in front of a wall are also removed
by analyzing the locations of the wall, the occlusions and the camera
position.
Experiments with three data sets show that building reconstruction are
considerably accelerated by the presented methods. Our approach is more
than 10 times faster than the traditional approach when reconstructing
the same buildings, and the models by our approach contain more fine
details such as doors and windows. The reconstruction of wall facades
and roofs are fully automatic, while some manual interactions (48
percent of the total reconstruction time) are still required for editing
the fine details. It should also be faster to make global statistics (number
of floors, number of entrances, etc.) and modifications (deriving models
with a lower level of detail, applying pre-defined textures, etc.) later
on to our models, since diffierent model parts have been associated with
the semantic labels. While the reconstruction efficiency is improved by
our approach, the visualization effects of our models are also
comparable to the models by the traditional approach. The future work
will focus on improving the knowledge base and developing a fully
automated camera parameter estimation procedure. The completeness and
adaptability of the knowledge base will be especially important for the
further automation of our reconstruction approach.
Contents
1. Introduction 1
2. Knowledge engineering and reasoning 15
3. Feature extraction 33
4. Geometric reconstruction 45
5. Model refinement with imagery 57
6. Texture mapping 73
7. Method evaluation 83
8. Conclusions and recommendations 103
Bibliography 106
List of publications 111
List of Figures 113
List of Tables 115
Samenvatting
Realistische 3D stadsmodellen zijn noodzakelijk voor verschillende
maatschappelijke toepassingen. Voor stedelijke ontwikkeling is het
analyseren van een 3D virtual reality omgeving vele malen meer efficiënt
dan het interpreteren van 2D kaartinformatie. Voor toepassingen in de
publieke veiligheid, zijn nauwkeurige 3D gebouwmodellen onmisbaar om de
juiste strategie te bepalen voor noodsituaties. Ook navigatiesystemen en
virtuele toeristische activiteiten hebben profijt van realistische
stadsmodellen.
De handmatige vervaardiging van stadsmodellen is zonder twijfel een
arbeidsintensief en kostbare aangelegenheid. Ten eerste zijn lange tijd
fotos de enige databron geweest voor geometrische modellering, terwijl
het bepalen van 3D geometrische informatie niet eenvoudig is aan de hand
van 2D foto's. Ten tweede zijn er grote hoeveelheden objecten
(bijvoorbeeld gebouwen) die gereconstrueerd moeten worden, die daarbij
ook nog een grote variëteit vertonen qua structuur en vorm. Er is geen
automatische methode om uit structuur van gebouwen zoals die in de data
wordt vastgelegd, te begrijpen. De snelle ontwikkeling van steden maakt
het nog kostbaarder om stadsmodellen handmatig bij te houden. In de
afgelopen jaren heeft laser scanning bewezen een succesvolle techniek te
zijn om objecten te reconstrueren. Puntwolken vervaardigd uit
terrestrische laserscanners zijn vooral geschikt om gebouwgevels vast te
leggen. Gebruikmakend van de hoge puntdichtheid en de 3D coördinaten van
de laserpunten, is het mogelijk om zowel de grove structuur als de fijne
details van gebouwgevels te herkennen. Recente ontwikkelingen zoals
mobiele laserscanning maken het ook mogelijk om grootschalig data in te
winnen in stedelijke gebieden.
Dit PhD onderzoek richt zich op het reconstrueren van fotorealistische
gebouwgevels uit terrestrische laserscanner puntwolken en close range
foto's, op een zo automatisch mogelijke manier. Allereerst wordt een
kennisbank aangelegd, waarin verschillende belangrijke gebouwkenmerken
(muren, deuren, erkers, etc.) worden gedefinieerd en beschreven aan de
hand van geometrische kenmerken en onderlinge ruimtelijke samenhang.
Vervolgens worden voorwaarden aan de kenmerkextractie afgeleid uit deze
kennisbank. Nadat de laser puntenwolk is gesegmenteerd in vlakke
segmenten, wordt elk segment vergeleken met de voorwaarden uit de
kennisbank om te bepalen wat het meest waarschijnlijke gebouwkenmerk is
voor dat segment. De kenmerkextractie werkt voor de meeste
gebouwkenmerken, maar niet om ramen te herkennen. Dat komt omdat er
normaal gesproken te weinig laser punten reflecteren op
raamoppervlaktes. Daarom moeten ramen herkend aan het feit dat er zich
gaten in de muren bevinden. Vervolgens wordt om elk segment een rand of
B-spline berekend. Delen waar geen laser data aanwezig is worden
opgevuld aan de hand van aannames uit de gebouwkennis. Deze delen worden
samen met de gereconstrueerde objectenranden gecombineerd tot een
compleet polyhedronmodel.
Omdat laser data geen kleurinformatie bevat, bestaan de uit laser data
gereconstrueerde gebouwmodellen alleen uit simpele draadmodellen. Om
fotorealistische modellen te verkrijgen, wordt textuur op het draadmodel
geprojecteerd aan de hand van foto's. Voor het samenvoegen van
laserpunten en foto's is het van belang dat beide coördinaatsystemen
nauwkeurig ten opzichte van elkaar bekend zijn. Dit wordt op een
semi-automatische manier bewerkstelligd. Vanwege de beperkingen van de
reconstructie methoden, kan het geometrisch model verkregen uit laser
puntwolken veel fouten bevatten die vooral zichtbaar worden tijdens de
textuurprojectie. Daarom worden duidelijke lijnkenmerken uit de foto's
vergeleken met het initiële geometrisch model. Noodzakelijke ingrepen
worden verricht om verbetering aan te brengen in het model, of om in elk
geval de zijkanten van het model samen te laten vallen met de
lijnkenmerken. Tot slot, wordt de textuur van elk gebouwvlak
geselecteerd door meerdere fotos te vergelijken. De foto met het beste
zicht wordt geselecteerd. Fouten in de textuurprojectie veroorzaakt door
objecten die het zicht op een muur blokkeren worden verwijderd door het
analyseren van de positie van de muur, de blokerende objecten en de
camerapositie.
Experimenten met drie data sets hebben uitgewezen dat reconstructie van
gebouwen aanzienlijk wordt versneld door het gebruik van de hier
voorgestelde methoden. Onze benadering is meer dan tien keer zo snel als
de traditionele aanpak bij het reconstrueren van dezelfde gebouwen, en
de modellen van onze aanpak bevatten meer verfijnde details zoals deuren
en ramen. De reconstructie van voorgevels en daken gaat volautomatisch,
waarbij enkele handmatige interacties (48 percent van de totale tijd
voor reconstructie) nog nodig zijn om de meer verfijnde details te
editen. Omdat we verschillende model-delen associëren met semantische
labels verwachten we dat het eenvoudiger is om globale statistieken uit
te rekenen, zoals aantallen deuren en ingangen, en om aanpassingen te
maken (modellen berekenen met een lager detailniveau, het aanbrengen van
voorgeprogrammeerde texturen, etc.). De efficiëntie van de reconstructie
wordt door ons model verbeterd terwijl de visualisatie effecten van onze
modellen te vergelijken is met die van de traditionele aanpak. In de
toekomst zal ons werk focussen op het ontwikkelen van een volledig
geautomatiseerde camera parameter inschattingsprocedure én het
verbeteren van de knowledge base. We denken daarbij vooral aan het
uitbreiden van de knowledge base en aan het exibiliseren voor toepassing
van onze geautomatiseerde reconstructie aanpak in verschillende
situaties.



