符合中小企业对网站设计、功能常规化式的企业展示型网站建设
本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...
商城网站建设因基本功能的需求不同费用上面也有很大的差别...
手机微信网站开发、微信官网、微信商城网站...
引言
创新互联专业为企业提供阳春网站建设、阳春做网站、阳春网站设计、阳春网站制作等企业网站建设、网页设计与制作、阳春企业网站模板建站服务,十载阳春做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
地理信息系统(Geographic Information System,简称GIS)是计算机科学、地理学、测量学、地图学等多门学科综合的技术[1]。GIS的基本技术是空间数据库、地图可视化及空间分析,而空间数据库是GIS的关键。空间数据挖掘技术作为当前数据库技术最活跃的分支与知识获取手段,在GIS中的应用推动着GIS朝智能化和集成化的方向发展。
1 空间数据库与空间数据挖掘技术的特点
随着数据库技术的不断发展和数据库管理系统的广泛应用,数据库中存储的数据量也在急剧增大,在这些海量数据的背后隐藏了很多具有决策意义的信息。但是,现今数据库的大多数应用仍然停留在查询、检索阶段,数据库中隐藏的丰富的知识远远没有得到充分的发掘和利用,数据库中数据的急剧增长和人们对数据库处理和理解的困难形成了强烈的反差,导致“人们被数据淹没,但却饥饿于知识”的现象。
空间数据库(数据仓库)中的空间数据除了其显式信息外,还具有丰富的隐含信息,如数字高程模型〔DEM或TIN〕,除了载荷高程信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息,等等。这些隐含的信息只有通过数据挖掘才能显示出来。空间数据挖掘(Spatial Data Mining,简称SDM),或者称为从空间数据库中发现知识,是为了解决空间数据海量特性而扩展的一个新的数据挖掘的研究分支,是指从空间数据库中提取隐含的、用户感兴趣的空间或非空间的模式和普遍特征的过程[2]。由于SDM的对象主要是空间数据库,而空间数据库中不仅存储了空间事物或对象的几何数据、属性数据,而且存储了空间事物或对象之间的图形空间关系,因此其处理方法有别于一般的数据挖掘方法。SDM与传统的地学数据分析方法的本质区别在于SDM是在没有明确假设的前提下去挖掘信息、发现知识,挖掘出的知识应具有事先未知、有效和可实用3个特征。
空间数据挖掘技术需要综合数据挖掘技术与空间数据库技术,它可用于对空间数据的理解,对空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等。
2 空间数据挖掘技术的主要方法及特点
常用的空间数据挖掘技术包括:序列分析、分类分析、预测、聚类分析、关联规则分析、时间序列分析、粗集方法及云理论等。本文从挖掘任务和挖掘方法的角度,着重介绍了分类分析、聚类分析和关联规则分析三种常用的重要的方法。
2.1、分类分析
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和我们熟知的回归方法都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续的数值。二者常表现为一棵决策树,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。空间分类的规则实质是对给定数据对象集的抽象和概括,可用宏元组表示。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由特征(又称属性)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, ..., vn; c );其中vi表示字段值,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示是判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是反向传播(Back-Propagation,简称BP)算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数[3]。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1) 预测准确度;2) 计算复杂度;3) 模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是海量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。例如,采用规则归纳法表示的分类器构造法就很有用,而神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关。有的数据噪声大,有的有缺值, 有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
分类技术在实际应用非常重要,比如:可以根据房屋的地理位置决定房屋的档次等。
2. 2 聚类分析
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。它的目的是使得属于同一个组的样本之间应该彼此相似,而不同组的样本应足够不相似。与分类分析不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。基于聚类分析方法的空间数据挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,对空间数据聚类分析方法的研究是一个热点。
对于空间数据,利用聚类分析方法,可以根据地理位置以及障碍物的存在情况自动地进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。
2.3 关联规则分析
关联规则分析主要用于发现不同事件之间的关联性,即一事物发生时,另一事物也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是:事件发生的概率和条件概率应该符合一定的统计意义。空间关联规则的形式是X->Y[S%,C%],其中X、Y是空间或非空间谓词的集合,S%表示规则的支持度,C%表示规则的置信度。空间谓词的形式有3种:表示拓扑结构的谓词、表示空间方向的谓词和表示距离的谓词[5]。各种各样的空间谓词可以构成空间关联规则。如,距离信息(如Close_to(临近)、Far_away(远离))、拓扑关系(Intersect(交)、Overlap(重叠)、Disjoin(分离))和空间方位(如Right_of(右边)、West_of(西边))。实际上大多数算法都是利用空间数据的关联特性改进其分类算法,使得它适合于挖掘空间数据中的相关性,从而可以根据一个空间实体而确定另一个空间实体的地理位置,有利于进行空间位置查询和重建空间实体等。大致算法可描述如下:(1)根据查询要求查找相关的空间数据;(2)利用临近等原则描述空间属性和特定属性;(3)根据最小支持度原则过滤不重要的数据;(4)运用其它手段对数据进一步提纯(如OVERLAY);(5)生成关联规则。
关联规则通常可分为两种:布尔型的关联规则和多值关联规则。多值关联规则比较复杂,一种自然的想法是将它转换为布尔型关联规则,由于空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系,因此其代价是很高的。—种逐步求精的挖掘优化方法可用于空间关联的分析,该方法首先用一种快速的算法粗略地对一个较大的数据集进行一次挖掘,然后在裁减过的数据集上用代价较高的算法进一步改进挖掘的质量。因为其代价非常高,所以空间的关联方法需要进一步的优化。
对于空间数据,利用关联规则分析,可以发现地理位置的关联性。例如,85%的靠近高速公路的大城镇与水相邻,或者发现通常与高尔夫球场相邻的对象是停车场等。
3 空间数据挖掘技术的研究方向
3.1 处理不同类型的数据
绝大多数数据库是关系型的,因此在关系数据库上有效地执行数据挖掘是至关重要的。但是在不同应用领域中存在各种数据和数据库,而且经常包含复杂的数据类型,例如结构数据、复杂对象、事务数据、历史数据等。由于数据类型的多样性和不同的数据挖掘目标,一个数据挖掘系统不可能处理各种数据。因此针对特定的数据类型,需要建立特定的数据挖掘系统。
3.2 数据挖掘算法的有效性和可测性
海量数据库通常有上百个属性和表及数百万个元组。GB数量级数据库已不鲜见,TB数量级数据库已经出现,高维大型数据库不仅增大了搜索空间,也增加了发现错误模式的可能性。因此必须利用领域知识降低维数,除去无关数据,从而提高算法效率。从一个大型空间数据库中抽取知识的算法必须高效、可测量,即数据挖掘算法的运行时间必须可预测,且可接受,指数和多项式复杂性的算法不具有实用价值。但当算法用有限数据为特定模型寻找适当参数时,有时也会导致物超所值,降低效率。
3.3 交互性用户界面
数据挖掘的结果应准确地描述数据挖掘的要求,并易于表达。从不同的角度考察发现的知识,并以不同形式表示,用高层次语言和图形界面表示数据挖掘要求和结果。目前许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域知识。对此可以利用贝叶斯方法和演译数据库本身的演译能力发现知识。
3.4 在多抽象层上交互式挖掘知识
很难预测从数据库中会挖掘出什么样的知识,因此一个高层次的数据挖掘查询应作为进一步探询的线索。交互式挖掘使用户能交互地定义一个数据挖掘要求,深化数据挖掘过程,从不同角度灵活看待多抽象层上的数据挖掘结果。
3.5 从不同数据源挖掘信息
局域网、广域网以及Internet网将多个数据源联成一个大型分布、异构的数据库,从包含不同语义的格式化和非格式化数据中挖掘知识是对数据挖掘的一个挑战。数据挖掘可揭示大型异构数据库中存在的普通查询不能发现的知识。数据库的巨大规模、广泛分布及数据挖掘方法的计算复杂性,要求建立并行分布的数据挖掘。
3.6 私有性和安全性
数据挖掘能从不同角度、不同抽象层上看待数据,这将影响到数据挖掘的私有性和安全性。通过研究数据挖掘导致的数据非法侵入,可改进数据库安全方法,以避免信息泄漏。
3.7 和其它系统的集成
方法、功能单一的发现系统的适用范围必然受到一定的限制。要想在更广泛的领域发现知识,空间数据挖掘系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等技术的集成。
4 有待研究的问题
我们虽然在空间数据挖掘技术的研究和应用中取得了很大的成绩,但在一些理论及应用方面仍存在急需解决的问题。
4.1 数据访问的效率和可伸缩性
空间数据的复杂性和数据的大量性,TB数量级的数据库的出现,必然增大发现算法的搜索空间,增加了搜索的盲目性。如何有效的去除与任务无关的数据,降低问题的维数,设计出更加高效的挖掘算法对空间数据挖掘提出了巨大的挑战。
4.2 对当前一些GIS软件缺乏时间属性和静态存储的改进
由于数据挖掘的应用在很大的程度上涉及到时序关系,因此静态的数据存储严重妨碍了数据挖掘的应用。基于图层的计算模式、不同尺度空间数据之间的完全割裂也对空间数据挖掘设置了重重障碍。空间实体与属性数据之间的联系仅仅依赖于标识码,这种一维的连接方式无疑将丢失大量的连接信息,不能有效的表示多维和隐含的内在连接关系,这些都增加了数据挖掘计算的复杂度,极大地增加了数据准备阶段的工作量和人工干预的程度。
4.3 发现模式的精炼
当发现空间很大时会获得大量的结果,尽管有些是无关或没有意义的模式,这时可利用领域的知识进一步精炼发现的模式,从而得到有意义的知识。
在空间数据挖掘技术方面,重要的研究和应用的方向还包括:网络环境上的数据挖掘、栅格矢量一体化的挖掘、不确定性情况下的数据挖掘、分布式环境下的数据挖掘、数据挖掘查询语言和新的高效的挖掘算法等。
5 小结
随着GIS与数据挖掘及相关领域科学研究的不断发展,空间数据挖掘技术在广度和深度上的不断深入,在不久的将来,一个集成了挖掘技术的GIS、GPS、RS集成系统必将朝着智能化、网络化、全球化与大众化的方向发展。
1963年,加拿大测量学家 罗杰 ·汤姆林森(Roger Tomlinson)首先提出了 GIS 这一术语,并建成世界上第一个 GIS (加拿大地理信息系统CGIS),用于自然资源的管理和规划。汤姆林森提倡使用计算机进行空间分析的先见之明以及他在建立CGIS过程中的领导角色,为他赢得了“GIS之父”的光荣称号。
到如今,GIS经历了50多年的发展历程,这个期间计算机也有了革命性的变化,CPU、显卡、存储的革新促使一大堆GIS软件的诞生,如:ArcGIS、GoogleEarth、SuperMap、LocaSpace等 不同的GIS产品和平台对数据的支持也各有不同,在此期间逐渐形成了一些规范化的标准,有了更多的通用格式,这里就简单介绍一下。
以下整理主要来自于网络,如果错误以及不当之处请及时指出,会第一时间处理。
参考地址:【 】
地理信息系统 (Geographic Information System或 Geo-Information system,GIS)有时又称为“地学信息系统”。它是一种特定的十分重要的空间信息系统。它是在 计算机 硬、软件系统支持下,对整个或部分 地球 表层(包括大气层)空间中的有关 地理 分布 数据 进行 采集 、 储存 、 管理 、 运算 、 分析 、 显示 和 描述 的技术系统
简单来说GIS就是一堆坐标相关的数据的组织和渲染展示。
•一切都从地球(Globe)说起
•用Globe来模拟一个地球
•用图层(Layer)来抽象表达地物的集合
–图层是某一类地物的集合,例如道路图层,河流图层,房屋图层。
•用要素(Feature)来表达地物,例如一个公交站用一个点标注来表示
•用符号(style)来标识地物分类
•GSOFeature代表一个要素(地物)
•每个Feature都包含一个Geometry对象
•可以是点、线、面、模型等对象
要素的本身:是地理坐标(经度、纬度、高度),与属性(颜色、样式、描述、体积、长度、面积等)的综合体。
具体体现形式可以是
txt
excel
csv
json
xml
sql字段
kml、shpfile、gpx等
看一个展现形式:
线:
•符号样式类
•每一个Geometry对象都有一个GSOStyle,来设置对象的表现方式,例如,点的图标,字体。线面的宽度、颜色。三维模型的颜色等等。
feature(元素)符号化(可视化)的详情,参考:
【 】
【 】
参考地址:【 】
Shapefile文件是美国环境系统研究所(ESRI)所研制的GIS文件系统格式文件,是工业标准的矢量数据文件。 Shapefile将空间特征表中的非拓扑几何对象和属性信息存储在数据集中,特征表中的几何对象存为以坐标点集表示的图形文件—SHP文件,Shapefile文件并不含拓扑(Topological)数据结构。 一个Shape文件包括三个文件:一个主文件(*.shp),一个索引文件(*.shx),和一个dBASE(*.dbf)表 。主文件是一个直接存取,变长度记录的文件,其中每个记录描述构成一个地理特征(Feature)的所有vertices坐标值。在索引文件中,每条记录包含对应主文件记录距离主文件头开始的偏移量,dBASE表包含SHP文件中每一个Feature的特征属性,表中几何记录和属性数据之间的一一对应关系是基于记录数目的ID。在dBASE文件中的属性记录必须和主文件中的记录顺序是相同的。图形数据和属性数据通过索引号建立一一对应的关系。
Shapefile中坐标文件(.shp)由固定长度的文件头和接着的变长度空间数据记录组成。文件头由100字节的说明信息组成的(附表 1),主要说明文件的长度、Shape类型、整个Shape图层的范围等等,这些信息构成了空间数据的元数据。在导入空间数据时首先要读入文件头获取Shape文件的基本信息,并以此信息为基础建立相应的元数据表。而变长度空间数据记录是由固定长度的记录头和变长度记录内容组成,其记录结构基本类似,每条记录都有记录头和记录内容组成(空间坐标对)。记录头的内容包括记录号(Record Number)和坐标记录长度(Content Length)两个记录项,Shapefile文件中的记录号都是从1开始的,坐标记录长度是按16位字来衡量的。记录内容包括目标的几何类型(ShapeType)和具体的坐标记录(X,Y),记录内容因要素几何类型的不同,其具体的内容和格式都有所不同。对于具体的记录主要包括空Shape记录,点记录,线记录和多边形记录,具体的记录结构如附表 2所示。
属性文件(.dbf)用于记录属性信息。它是一个标准的DBF文件,也是由头文件和实体信息两部分构成。其中文件头部分的长度是不定长的,它主要对DBF文件作了一些总体说明(附表 3),其中最主要的是对这个DBF文件的记录项的信息进行了详细的描述(附表 4),比如对每个记录项的名称,数据类型,长度等信息都有具体的说明。属性文件的实体信息部分就是一条条属性记录,每条记录都是由若干个记录项构成,因此只要依次循环读取每条记录就可以了。
索引文件(.shx)主要包含坐标文件的索引信息,文件中每个记录包含对应的坐标文件记录距离坐标文件的文件头的偏移量。通过索引文件可以很方便地在坐标文件中定位到指定目标地坐标信息。索引文件也是由文件头和实体信息两部分构成的,其中文件头部分是一个长度固定(100 bytes)的记录段,其内容与坐标文件的文件头基本一致。它的实体信息以记录为基本单位,每一条记录包括偏移量(Offset)和记录段长度(Content Length)两个记录项。附表 5给出了具体的描述。
个人理解 :shp作为GIS当中十分常用的一种格式,有必要了解一下它的一些特性:
1.shp文件只能存储点、线、面中的一种类型,要么里面存储的全是点,要不全是线、要么全是面,不存在混合存在的状态
2.shp可以设置很多字段属性,比如一个管线文件,你可以定义管径、颜色、埋深、归属、修建时间等等。。。
3.shp可以设置不同的投影信息,投影是很多人比较头疼的问题经常搞不明白是怎么回事,经常出现拿两个不同投影,不同坐标系统的数据相互叠加发现不能叠加成功,而任何一个数据都没有错误,这方面的问题可以参考【 地理坐标系与投影坐标系的区别 】
-参考百度百科
KML 是由开放地理空间联盟(Open Geospatial Consortium, Inc.,简称 OGC)维护的国际标准。
KML, 是 标记语言 (Keyhole Markup Language)的缩写,最初由Keyhole公司开发,是一种基于XML 语法与格式的、用于描述和保存地理信息(如点、线、图像、多边形和模型等)的编码规范,可以被 Google Earth 和 Google Maps 识别并显示。Google Earth 和 Google Maps 处理 KML 文件的方式与 网页浏览器 处理 HTML 和 XML 文件的方式类似。像 HTML 一样,KML 使用包含名称、属性的标签(tag)来确定显示方式。因此,您可将 Google Earth 和 Google Maps 视为 KML 文件浏览器 。2008年4月微软的OOXML成为国际标准后,Google公司宣布放弃对KML的控制权,由开放地理信息联盟(OGC)接管KML语言,并将“Google Earth”及“Google Maps”中使用的KML语言变成为一个国际标准。
KMZ 文件是 压缩过的KML文件 。由于 KMZ 是压缩包,因此,它不仅能包含 KML文本,也能包含其他类型的文件。如果您的地标描述中链接了本地图片等其他文件,建议您在保存地标时,保存类型选 KMZ 而不选 KML,Google Earth 会把您链接的图片等文件复制一份夹 KMZ 压缩包中。这样,您就可以将包含丰富信息的地标文件发给朋友,一起 分享 了。
个人理解:KML作为GIS当中十分常用的一种格式,有必要了解一下它的一些特性:
1.kml是xml文本,本身没有什么特殊性可言
2.支持点、线、面等要素,并可以设置属性信息。
3.支持文件夹结构,可以通过内建文件夹来管理大量的数据
下图是LocaSpaceViewer加载kml的效果图
有时客户需要提供dxf的文件格式,不知道dxf文件与dwg文件有什么区别各有什么特点?
拿着自己的dxf文件不知道该怎么打开?更不知道如何在GIS当中使用?
dxf和dwg的区别这里引用一篇文章里的内容来做介绍【 】
dwg文件 :*.dwg是AutoCAD的图形文件,是二维或三维图形档案。其与dxf文件是可以互相转化的。
dxf文件: *.dxf是Autodesk公司开发的用于AutoCAD与其它软件之间进行CAD数据交换的CAD数据文件格式。DXF是一种 开放的矢量数据格式 ,可以分为两类:ASCII格式和二进制格式;ASCII具有可读性好,但占有空间较大;二进制格式占有空间小、读取速度快。由于Autocad现在是最流行的cad系统,DXF也被广泛使用,成为事实上的标准。绝大多数CAD系统都能读入或输出DXF文件。 DXF文件可以用记事本直接打开 ,编辑相应的图元数据.换句话说,如果你对DXF文件格式有足够了解的话,甚至可以在记事本里直接画图。DWG的来绘图更直观(DXF图纸中线条的相交处都会有个小圆),而用于数控加工的图纸则必须是DXF文件(操机者必须把DWG转换成DXF后才可加工)如快走丝。dxf是工业标准格式的一种。所以这也是它们用途的区别。
autocad是一个非常优秀的绘图软件,已经融入到大学的课堂里,同时工业制造和很多设计行业都使用cad进行图纸的绘制,范围的广泛性就不做说明了。
dxf和投影的关系
对于文件本身的介绍上述应该就够了,这里补充一点dxf和投影的一些关系,即dxf在gis当中的使用
参考内容【 AutoCAD DXF 图形的批量无损投影转换方法 】
原理: 在CAD当中任何图形均由点、线、面图元组成,如CAD的直线、射线、多义线、Spline曲线、多边形、面域、填充面等,由线性组成的图元在DXF文件记录中表现为以点或线的拐点、或曲线的控制点、拟合点坐标记录形式[2],读取、处理这些图元坐标数据无需特别处理,只要读取坐标数据转换即可。
常规: 因此很多和规划以及地图相关的CAD文件,CAD的图框上大多相关的地理和投影坐标信息,一般在左下角会有投影坐标信息,比如北京1954坐标,图框的格网线附近还会有相应的分带,带号信息,找到这些信息以后,就可以进行投影定义了。对于投影的定义,推荐使用.prj文件。如何确定prj文件当中所需的投影信息,如何确定EPSG号,等更多关于CAD当中配置prj文件的详情参考【 使用LocaSpaceViewer编辑规划用的CAD文件,配置CAD文件投影信息 】
如果以上信息都没有,那就只能是硬加载然后进行平移操作了。这个过程当中如果最终结果和gis数据无法套和或者差距甚远,大多是转换过程当中出了错误。
参考【 】【 】
GPX是比较标准的GPS信息交互文件,当然其他公司还有自己的格式。GPX采用XML语言,所以显得稍微有点臃肿,压缩后就很小了。
GPX, 或称 GPS exchange 格式, 是一种用于存储坐标数据的 XML 文件格式。它可以储存在一条路上的路点,轨迹,路线,且易于处理和转换到其他格式。OpenStreetMap 使用的所有 GPS 数据要转换为 GPX 格式才能上传。
GPX包含 带有正确时间戳的轨迹点。创建GPX文件,使用有效的schema. 如果包括编码标签,可以是’UTF-8’, 而不能是’utf8’。
对于lgd文件,很多人可能会比较陌生,很多人可能用了,但也并不知其所以然,这里也稍加解释。
lgd文件和ldl文件是配套的,是一个矢量数据存储交换格式。
数据格式发明者: 苏州中科图新网络科技有限公司
文件特性:
a.支持点、线、面、圆形、矩形、椭圆、军标、水面、粒子特效等矢量数据。
b.二进制流文件,体积小,压缩比高,可适用于pc、移动端等,在pc和移动端做数据交互。
c.有自己的内置索引文件,查询、检索效率极高。且可用于服务器数据发布(和LocaServer配套使用)
文件缺点 :不支持文件夹结构。
汇总:上述文件格式各有各的优势,这么多的矢量数据格式基本都是可以相互转换的。
关于影像数据的一些说明
标签图像文件格式(Tagged Image File Format,简写为TIFF) 是一种主要用来存储包括照片和艺术图在内的图像的文件格式。它最初由 Aldus公司与 微软公司 一起为PostScript打印开发。
TIFF与 JPEG 和 PNG 一起成为流行的高位彩色图像格式。TIFF格式在业界得到了广泛的支持,如 Adobe 公司的 Photoshop 、The GIMP Team的 GIMP 、 Ulead PhotoImpact 和 Paint Shop Pro 等图像处理应用、 QuarkXPress 和 Adobe InDesign 这样的桌面印刷和页面排版应用, 扫描 、传真、文字处理、 光学字符识别 和其它一些应用等都支持这种格式。从Aldus获得了 PageMaker 印刷应用程序的Adobe公司现在控制着TIFF规范。
tif可以有8位,24位等深度,一般真彩色是24位,而地形数据只有一个高度值,采用8位。
目前很多卫星影像数据的存储格式都是tif。包括目前流行的倾斜摄影生成的正射影像一般也以tif格式存储。
参考【 】【 百度百科 】
IMG文件格式是一种可存储多种类型数据、应用广泛的图像数据格式.IMG文件采用HFA结构组织数据,HFA是一种树状结构,各种数据( 图像教据、统计数据、投影信息、地理数据 等)占据“树”的各个节点.本文详细介绍了Img文件格式的结构,Img存储信息的重要特点是分块存储,并且提供了对Img文件读取的方法,此方法读取效率高,可以根据需要分块读取,只读取需要的块信息,大大的提高了读取速度.
IMG 是一种文件压缩格式(archive format),主要是为了创建软盘的镜像文件(disk image),它可以用来压缩整个软盘(通常指软软盘,Floppy Disk或Diskette)或整片光盘的内容,使用".IMG"这个 扩展名 的文件就是利用这种文件格式来创建的。
提示:一般spot卫星的影像是img格式
lrp格式,影像、地形数据存储格式。很多使用过LocaSpaceViewer的人,应该已经见识过他的好处了。
数据格式发明者: 苏州中科图新网络科技有限公司
文件特性:
a.支持地形、影像。
b.二进制流文件,根据不同的数据类型使用不同的压缩算法,体积小。
c.自带分级(LOD)有自己的内置索引文件,查询、检索效率极高。且可用于服务器数据发布(和LocaServer配套使用)
同影像
同影像
同影像
.grd是纯文本的Arc/Info Grid数据的交换文件.
对于存储地形的grd文件可以使用 LocaSpaceViewer、GlobalMapper 、或者在 arc/info 中使用asciigrid命令可以把它转成grid,用grid模块或arcview显示
这里使用LocaSpaceViewer的提取高程功能生成一个grd文件如下:
1.DSAA是Surface的标准
2.8 11代表横向(纬度方向)有8个点,纵向(经度方向)有11个点
3.102.6605598899 102.7420948899代表最小经度,最大经度
4.25.0562111272 25.1499849210代表最小纬度和最大纬度
5.1891.8906134325 2239.4623230170代表范围内的最小高程值和最大高程值
6.横向(纬度方向)上的第一列所有点值,一共8个点
7.以此类推。。。
参考:【 】
*.dem有两种格式,NSDTF和USGS。
SGS-DEM (USGS是美国地质调查局(U.S.GeologicalSurvey)的英文缩写,是一种公开格式的DEM数据格式标准,使用范围较广格式的。
NSDTF-DEM 是中华人民共和国国家标准地球空间数据交换格式,是属于格网数据交换格式,一般的GIS软件都不支持这种格式。
这里介绍如何使用LocaSpaceViewer打开 NSDTF-DEM 格式的grd数据
如果我们将上面的NSDTF格式的头文件改为Grid的头文件格式,其中高程值不变,就完全可以在LocaSpaceViewer中查看这个*.dem。(最好将后缀名改为*.grd。改了头文件之后,该文件已经变成grid文件)。这样通过修改这个*dem的头文件就可以直接将它转换为grd文件。
--------------一次内部分享的记录。
关于地形数据的一些说明:
数据精度
数据级别
ArcGIS、超图、SkyLine等作为GIS里面的巨头,也都形成了很多自己的数据格式,部分开放规则,部分不开放。
有关coverage(aux、rrd、adf、dat、nit、dir)的数据格式说明,可以参考: coverage的理解
未完待续...(后续会继续增加:.dem,.adf,.idr,.sid,.ecw,.ers,hdr,.gft,.mif,.vec等等)
秦爽 李进化
(河南省地质博物馆,郑州450016)
摘要 地质图件的矢量化,是解决地质图件数字化瓶颈难题的必然途径,随着计算机与信息技术的迅速发展,数字化成图方式已被广泛应用,基于数字化地质图的机助编绘势在必行。本文从扫描矢量化的实际出发,从MAPGIS的基础准备到具体操作等环节进行了分析,并结合了本人工作实践,得出利用MAPGIS矢量化图像的几点体会。
关键词 扫描;矢量化;栅格图像;矢量图形;MAPGIS;编辑;数字化
对于原有地质资料进行矢量化管理已成为趋势。对图件数字化不外乎两种方法,一种是利用数字化仪进行数字化,误差来源定向误差,采集误差等,这种方法在20世纪80、90年代曾流行一时,但由于投资较大,误差较高,很少有人再使用;另一种方法是将图件扫描成栅格图像,并利用光栅矢量混合编辑软件如MAPGIS、GTX、AutoCAD Overlay等来转变成矢量数字图形。
1 扫描矢量化的基本概念
(1)数字化。数字化是指把图形、文字等模拟信息转换成为计算机能够识别、处理、贮存的数字信息的过程。
(2)矢量化。矢量化是指把栅格数据转换成矢量数据的过程。
(3)光栅化。光栅化是指把矢量数据转换成栅格数据的过程。
(4)栅格图像。也称光栅图像,是指在空间和亮度上都已经离散化了的图像。我们可以把一幅栅格图像考虑为一个矩阵,矩阵中的任一元素对应于图像中的一个点,而相应的值对应于该点的灰度级,数字矩阵中的元素叫做像素。数字图像与马赛克拼图相似,是由一系列像素组成的矩形图案,如果所有的像素有且仅有两个灰度级(黑或白),则称其为二值图像,即位图;否者称其为灰度图像或彩色图像。
(5)矢量图形。在介绍矢量图形之前,我们首先阐述矢量对象的概念。矢量对象是以矢量的形式,即用方向和大小来综合表示目标的形式描述的对象。例如画面上的一段直线,一个矩形,一个点,一个圆,一个填充的封闭区域等。矢量图形文件就是由这些矢量对象组合而成的描述性文件。矢量图形则是计算机软件通过一定算法,将矢量对象的描述信息在显示终端上重绘的结果。
纸质地图经扫描仪扫描后,初步保存为栅格图像(常见的格式有TIFF、BMP、PCX、JPEG等)。栅格图像在地理应用领域有着这样的缺陷:首先,栅格图像文件对图像的每一像素点(不管前景或背景像素)都要保存,所以其存储量特别大。另外,我们不能对图像上的任一对象(曲线、文字或符号)进行属性修改、拷贝、移动及删除等图形编辑操作,更不能进行拓扑求解,只能对某个矩形区域内的所有像素同时进行图像编辑操作。此外,当图像进行放大或缩小显示时,图像信息会发生失真,特别是放大时图像目标的边界会发生阶梯效应,正如点阵汉字放大显示发生阶梯效应的原理一样。
而矢量图形则不同。在矢量图形中每个目标均为单个矢量单位(点、线、面)或多个矢量单位的结合体。基于这样的数据结构,我们便可以很方便地在地图上编辑各个地物,将地物归类,以及求解各地物之间的空间关系。并有利于地图的浏览、输出。矢量化则是利用数字图像处理算法,将源图上的各种栅格阵列识别为矢量对象,最后以一定格式保存的过程。矢量图形在工业、制图业、土地利用部门等行业都有广泛的应用。在这些领域的许多成功软件都基于矢量图形,或离不开矢量图形的参与,如MAPGIS、AutoCAD、ARC/INFO、Corel Draw、GeoStar等等。
随着计算机科学、地理学、制图学、遥感与摄影测量学、图形图像技术以及数据库技术的不断发展,地理信息系统已成为一种功能强大、性能完善的计算机系统,广泛应用于规划、土地、测绘、建设、环保、军事等诸多部门,成为政府部门进行科学管理和快速决策时不可或缺的工具。而各具特点的 GIS和制图应用软件也给社会用户提供更大的选择性。MAP GIS作为较早发展起来的国产 GIS软件,国内拥有一定数量的用户。
由中国地质大学开发的MAP GIS是一个具有国际先进水平的地理信息系统,它分为“图形处理”、“库管理”、“空间分析”、“图像处理”及“实用服务”5大部分,共计21个子系统。使用时,用户根据自己的不同需要,随机选择各个子系统。
2 MAPGIS 扫描矢量化输入
扫描矢量化,通过扫描仪输入扫描图像,然后通过矢量追踪,确定实体的空间位置。对于高质量的原资料,扫描是一种省时、高效的数据输入方式。MAPGIS扫描矢量化的主要功能有:
图像格式转换功能——系统可接受扫描仪输入的TIFF栅格数据格式,并将其转换为MAPGIS系统的标准RBM格式。
矢量跟踪导向功能——可对整个图形进行全方位游览,任意缩放,自动调整矢量化时的窗口位置,以保证矢量化的导向光标始终处在屏幕中央。在多灰度级图像上跟踪线划时,保证跟踪中心线。
多种矢量化处理功能——系统提供了交互式手动、半自动、细化全自动和非细化全自动矢量化方式,同时提供了全图矢量化和窗口内矢量化功能,供用户选择。
自动识别功能——系统应用人工智能及模式识别的技术,在我国率先成功地实现灰度扫描地图矢量化和彩色扫描地图矢量化,克服了二值扫描地图矢量化的致命弱点,使之彩色地图可达全要素一次性矢量化。
编辑校正功能——系统提供了对矢量化后的图元(包括点图元和线图元),进行编辑、修改等功能,可随时进行任意大小比例的显示,便于校对;对汉字、图符等特殊图元,可直接调用系统库,根据给定的参数,自动输入生成。
3 MAPGIS 的基本概念
MAP GIS把地图数据根据基本形状分为三类:点数据,线数据和区数据(亦即面数据)。与之相对应,文件的基本类型也分为三类:点文件(∗.WT),线文件(∗.WL)和区文件(∗.WP)。只有包括所有地图数据的三类文件都叠加起来时,才构成一幅完整的地图。
3.1 点
点是地图数据中点状物的统称,是由一个控制点决定其位置的符号或注释。它不是一个简单的点,而是包括各种注释(英文、汉字、阿拉伯数字等)和专用符号(包括圆、弧、直线、五角星、亭子等各类符号)。它与线编辑中“线上加点”的点的概念不同,“线上加点”的点是坐标点。所有的点图元数据都保存在点文件中(∗.WT)。
3.2 线
线是地图中线状物的统称。MAP GIS将各种线型(如点划线、省界、国界、等高线、路、河堤)以线为单位作为线图元来编辑。所有的线图元数据都保存在线文件中(∗.WL)。
3.3 区
区通常也称面,它是由首尾相连的弧段组成封闭图形,并以颜色和花纹图案填充封闭图形所形成的一个区域。如湖泊、居民地等。所有的区图元数据都保存在区文件中(∗.WP)。
3.4 图层
在GIS的应用中,同一文件中有多种类型的地理要素。如一个线文件中可能包括等高线、公路、铁路、河流等多种类型的线。为了便于编辑和管理,一般情况下,可以把同一类型的地理要素放到同一图层,例如:将所有的铁路线都放到铁路图层,而把所有的等高线都存放到等高线图层,这样所有的图层都叠加起来就构成了一个完整的线文件。特殊情况下,一个图层也可存为一个单独的文件。
3.5 工程
一个工程由一个或一个以上的点文件、一个或一个以上的线文件和一个或一个以上的区文件组成。
3.6 编辑处理
数据输入计算机后,就要进入图形编辑、数据校正、图廓整饰、邻图接边、误差消除等项工作。由MAP GIS图形编辑子系统、拓扑结构编辑子系统、错误检查和数据校正等子系统来完成上述各项编辑处理任务。
3.7 颜色设计
颜色是地学图表现的一种重要要素,它直接影响地学图的表现力和图面效果。因此,地学图对颜色的要求是非常严格的。MAP GIS对地学图作了颜色的要求,在分析了地学图印刷特点的基础上,设计了一套灵活、方便、精确的颜色定义和色标系统。
3.8 图形输出
图形输出是MAP GIS系统中最后一道工序,通常是把显示所需的图形数据,经过分析、处理、编辑、用色、自检、误差消除等,在基本符合要求后,用彩色喷墨绘图仪输出彩色样图,对彩色样图进行校对和系统质量检查。
4 利用 MAPGIS 矢量化图像的几点体会
在MAP GIS软件使用过程中,制图单位经常会遇到这样或那样棘手的问题,针对这类问题,通过查阅MAP GIS参考手册并总结计算机制图工作经验,得出了以下利用MAP GIS绘制地质图件的几点体会,以供同行参考。
4.1 扫描数字化的图件,可以直接用于MAPGIS 矢量化
我们扫描图字化的图件,有黑白二值、灰度和彩色(RGB模式)三种格式,MAP GIS正好支持这三种格式的TIF光栅文件(∗.TIF),可以在PHOTOSHOP中打开此光栅文件,另存为TIF文件即可。
4.2 编辑
作为地质图编辑者来说,不仅应有相关的专业技术能力,而且还要有一定的野外工作经验,美术特长和认真负责的态度,按照国家标准、行业规范进行编辑处理。在图形输入之前,编辑者必须对原图进行全面阅读,了解图面内容,查看平面图、图切剖面、图例、文字、地质事件、模式图等是否合理和吻合。对地形图编辑时,必须增加补充现势性资料,如三角点、公路、铁路、河流、湖泊、水库、居民地及注记等。然后,对图件的各项内容先进行错误消除,按地学图制作要求,设计版面,按规范设置字体、字号、图面整饰、设色方案等,这些都与编辑者密切相关。
4.3 校对
校对是一项反复的系统工程,又是出版物的一个重要环节,一般需经过多次校对,才可能消除存在的错误,保证其质量。地质图虽然在MAP GIS系统下经过编辑和处理,往往还不能达到理想效果。那么,必须通过彩色喷墨绘图仪输出彩色样图(或素图),进行一校、二校及质量检查。在检查过程中发现的缺陷,应及时处理,使图件规范化、标准化,弥补编图者之不足,达到最佳效果。
值得注意的是:从彩色喷墨绘图仪输出的颜色和色标存在着一定的差异(水性颜色与油性油墨之间的差别),胶版纸和铜版纸纸质纤维、亮度的差别,只要按地质图用色标准确定色号,印刷成品的颜色和色标颜色基本是一致的。
5 结束语
在扫描数字化的基础上,对原有地质资料进行矢量化。MAP GIS作为一套优秀的地理信息系统软件,应用在很多行业中。我们可以通过MAP GIS的“输入编辑”模块,在地形图或其他扫描后的栅格图件上采集数据,矢量化,形成完整的点、线、面文件,结果或者出图打印,或者进行各种应用分析,这是我们的发展趋势。
参考文献
[1]秦爽,李进化.普查地图编制.北京:测绘出版社.1982.
[2]秦爽,李进化.计算机地图制图.北京:测绘出版社.1991.
[3]第四届全国地质档案资料学术研讨会文集.北京:海洋出版社.2004.
[4]杨公之主编.档案信息化建设实务.北京:中国档案出版社.2003.
[5]董国臣,郝国杰,陈达,等.GIS在1:5万榆关镇幅区域地质调查中的应用[J].中国区域地质,1998,17(4).