当前位置:恩施知识网 > 健康之路 > 正文

数据库关系完备的系统,sql多列数据整合成一列

全文共3360字,预计学习时长7分钟
图片来源:unsplash.com/@tjevans
毫无疑问,关系型数据库在企业事务中享有行业垄断地位。当正确搭建并抽象化地恰到好处,以解决实际问题为目的而不是仅仅追求架构的完成度时,关系型数据库用起来还是很顺手的。然而在很多情况下,关系型数据库往往面临着尴尬的问题。
关系型数据库之式微
上世纪八十年代,关系型数据库作为一种结构化数据的方式广受欢迎,还具有持久性和并发性等优点。结构化查询语言(Structured Query
全文共3360字,预计学习时长7分钟

图片来源:unsplash.com/@tjevans

毫无疑问,关系型数据库在企业事务中享有行业垄断地位。当正确搭建并抽象化地恰到好处,以解决实际问题为目的而不是仅仅追求架构的完成度时,关系型数据库用起来还是很顺手的。然而在很多情况下,关系型数据库往往面临着尴尬的问题。

关系型数据库之式微

上世纪八十年代,关系型数据库作为一种结构化数据的方式广受欢迎,还具有持久性和并发性等优点。结构化查询语言(Structured Query Language,缩写为SQL)是调用这些数据库的方式。如果想将软件和关系型数据库进行整合,或生成有意义的报告,则需要使用SQL。

然而,随着SQL证明了自己的实力,SQL支持的关系型数据库却在成长的压力以及与业务相关的战略枢纽的压力下走向崩溃(或者说已经崩溃)。对开发人员来说,抽象的纯度成了大问题,因为数据库的结构化方式与实际业务所需的格式数据之间存在“阻抗不匹配”。

当一个对象与数据库中的多个表格连接时,其呈现出的状态如上图——这可能导致需要调用FK关系,以获得所需的数据。

为了检索有意义的数据,要组装很多东西;但想存储某些内容时,要按相反顺序全部重做一遍。软件构建和关系型数据库针对特定问题会采取两种截然不同的方法。因此,当我们必须匹配它们时就麻烦了——要动用对象关系映射框架和各种翻译库。

#noSQL

关系型数据库在上世纪90年代将“对象数据库”的概念变为现实,这让一些人大失所望。对象数据库的目的之一是将面向对象的数据按原样保存在内存中,然后将它们录入数据库,而不必在保存的数据和要使用的数据之间创建映射。

但是对象数据库没有生根。或者更确切地说,他们不被允许生根,因为企业陷入了关系型SQL数据库的软件集成的困境。思维方式和工作方法之间存在着普遍的关系优势,软件集成是妨碍对象数据库普及的主要决定因素。

尽管如此,当互联网要求数据库能够以具有成本效益的方式扩展时,对象数据库开始成为数据存储空间中的竞争者。扩大单个窗口是昂贵的,而且到底能扩大多少也有限制。然而,通过扩张来扩大窗口,在增大和缩小规模的能力方面更具成本效益和弹性。但是,SQL数据库只能在单个窗口上运行,而不能在多个窗口的集群上运行。

改变游戏规则的挑战者

终于,谷歌和亚马逊忍不住采取行动了。谷歌在2005年推出了Bigtable,亚马逊于2012年向公众发布了DynamoDB .MongoDB在2009年成为开源软件,而使用JavaScript编写的查询更增添了它对开发人员的吸引力。其他无表格数据库也开始走入主流视野,如CouchDB,Cassandra,Dynomite和Apache Hbase。

虽然SQL创建了一种较为标准化的调用关系数据库的方式,但上面列出的数据库有自己的要求和调用方法。然而,它们确实有许多共同点,比如它们都是非关系型、开源、集群友好和无模式的。

正是这些激发了一场“noSQL运动”。一个有趣的事实是:noSQL原本是一个名叫Johan Oskarsson的人在旧金山组织非正式聚会时使用的twitter标签。

由于其基础架构可扩展性,许多新企业和初创公司会考虑使用noSQL数据库。除此之外,依靠符合业务需求的数据模型(而不是依靠基于SQL的关系数据库或其他类似的东西),noSQL数据库可实现快速的软件开发和集成。

noSQL的四种数据模型

数据模型抽象地描述数据特征。在关系模型里,数据通常构建在二维表中,并通过使用键值和相关约束来建立关系。对于noSQL数据来说,主要有四种思考数据的方法;其中有些方法甚至会根据需要混合和匹配这些思维模型。

1. 键值

最简单的数据模型是键值存储。键值存储的基本思想是:数据库中有一个可以索引数据的键值,其附带的数据可以是任何东西。在某种程度上,它就像一个持久的散列映射,可以分布在不同的存储设备上。某些数据库允许存储有关键内值的元数据,以便创建复杂的索引。

上图为键值模型。与FK可以创建关系网的关系型数据库不同,键值模型不与其他任何东西相关联。而且值是多少也无从知晓,这一点与可供部分查看、部分查询的文档不同。

2. 文档

文档可能是最流行的数据模型,它也通常被认为是noSQL的代表。文档可以以任何方式构造,并且可以根据需要变得复杂或简单。它被认为是无模式的,通常以JSON的形式出现。程序员可以在其中放入任何内容,且不会被数据库“吐出来”。毕竟很多人都有过这种苦恼:想用SQL添加一些东西,结果数据库一点也不配合。

文档通常以JSON的形式出现

调用noSQL数据库时,可以调用要返回的文档,或者查询文档结构。这使得程序员可以根据需要检索文档的某些部分。键值结构只返回数据,然而文档模型在数据透明性方面更具灵活性。

3. 列族

列族有时看起来和关系表很相似。但是,它们在结构上并不相同。在关系型数据库中,这些会被分到另外一个有其他可能不相关的数据的表里。

列族仅记录相关数据。它看起来有点像关系表,但它俩并不一样;因为所见即所得:程序员可以把任何想要的东西放进去。

在列族对象中,仅存在相关数据,并且它们被结构化为键值对。实际上总共有三列,其中一列是列名,第二列是值,第三列是时间戳。列族模型可以看作是不受模式限制的数据集合。

4. 图形

与其他三种noSQL模型相比,图形数据库提供了一种完全不同的数据思维方式。图形数据库非常善于通过节点和处理关系。

映射图形模型以存储关系

虽然顾名思义,“关系型数据库”擅长维护数据中的关系,但必须使用外键和复杂的连接来提取一组相关数据。连接太多通常会导致计算机冻结。

图形数据库是专门用来解决这个问题的,它有自己的查询语言作为响应。图形数据库本身就是自己的主题。

当noSQL也不管用时

noSQL非常适合解决可扩展基础架构问题,以及数据模型和软件兼容性之间的冲突。然而,它不能包治百病。SQL还是十分重要的。

虽然noSQL的最大卖点之一是它没有模式,但其实数据中仍然存在隐性模式。

SQL数据库在其条目中显示关系和预期数据,并创建一定程度的一致性。至于noSQL数据库,则要由开发人员确保数据的正确性和一致性。没有辅助检查点来确保数据的完整性。代码最终会与此隐性模式绑定,并且需要进行自我监控以确保输入的所有内容都正确无误。

noSQL也没有强制并发一致性。这意味着,任何时候,在一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)这三者中,它只能实现两个。取对应英文的首字母,可以将这一现象称为“CAP定理”。

无论结构如何,只要noSQL数据库有分布式网络,就将获得网络分区——即不同节点之间的网络连接和沟通。如果无法连接到数据库本身,则无需选择其他两个选项。这使得一致性和可用性中只有一个能实现。SQL数据库就不会出现这个问题。

另一个主要问题是如何为数据集创建查询。值得一提的是,noSQL数据库通常能满足开发人员的需求,但它很难有效地满足分析师的需求。没有类似SQL的明确语言来与数据库连接,而且语言会因为所选平台不同而有所差异。仅根据数据本身的结构将数据通过文档集合在一起也是很低效的做法。

结语

世界上不存在一种能够完美应对所有数据的数据库或模型——也不应该存在。创建noSQL是为了解决开发人员使用关系型数据库时遇到的问题。大数据是一个相当现代的议题,在19世纪20世纪之交才出现。关系型数据库最初是在上世纪70年代早期提出的——“如何高效存储数据”这一问题背后的理念已经存在50多年之久了。

相比之下,noSQL更年轻;在新的解决方案出现之前,它还有很多需要学习、改进的地方。但不可否认的是,noSQL使软件开发变得更加容易,或者说它能更好地满足数据需求。可用的云服务(如Firebase,BigTable,DynamoDB和托管MongoDB)使开发人员可以更轻松地创建数据接口。

选择哪种数据库,最终还是要看个人需求。如果想要易于连接和开发迅速的,那么选用noSQL数据库可能是个好主意。如果想要熟悉的、开发人员操作熟练的,那么选用SQL可以实现稳定性和战略目的。

无论最终使用哪种数据库,请记住SQL和noSQL之间不是非此即彼的关系,不一定非要只选用其中一个。

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

数据库关系完备的系统,sql多列数据整合成一列

SQL语言的问题

SQL语言快速入门之一
SQL是英文Structured Query Language的缩写,意思为结构化查询语言。SQL语言的主要功能就是同各种数据库建立联系,进行沟通。按照ANSI(美国国家标准协会)的规定,SQL被作为关系型数据库管理系统的标准语言。SQL语句可以用来执行各种各样的操作,例如更新数据库中的数据,从数据库中提取数据等。目前,绝大多数流行的关系型数据库管理系统,如Oracle, Sybase, Microsoft SQL Server, ACCESS等都采用了SQL语言标准。虽然很多数据库都对SQL语句进行了再开发和扩展,但是包括Select, Insert, Update, Delete, Create, 以及Drop在内的标准的SQL命令仍然可以被用来完成几乎所有的数据库操作。下面,我们就来详细介绍一下SQL语言的基本知识。
数据库表格
  一个典型的关系型数据库通常由一个或多个被称作表格的对象组成。数据库中的所有数据或信息都被保存在这些数据库表格中。数据库中的每一个表格都具有自己唯一的表格名称,都是由行和列组成,其中每一列包括了该列名称,数据类型,以及列的其它属性等信息,而行则具体包含某一列的记录或数据。以下,是一个名为天气的数据库表格的实例。
城市 最高气温 最低气温
北京 10 5
上海 15 8
天津 8 2
重庆 20 13
该表格中“城市”, “最高气温”和“最低气温”就是三个不同的列,而表格中的每一行则包含了具体的表格数据。
数据查询
  在众多的SQL命令中,select语句应该算是使用最频繁的。Select语句主要被用来对数据库进行查询并返回符合用户查询标准的结果数据。Select语句的语法格式如下:
select column1 [, column2,etc] from tablename
[where condition];
([] 表示可选项)
  select语句中位于select关键词之后的列名用来决定那些列将作为查询结果返回。用户可以按照自己的需要选择任意列,还可以使用通配符“*”来设定返回表格中的所有列。
select语句中位于from关键词之后的表格名称用来决定将要进行查询操作的目标表格。
Select语句中的where可选从句用来规定哪些数据值或哪些行将被作为查询结果返回或显示。
在where条件从句中可以使用以下一些运算符来设定查询标准:
= 等于
> 大于
< 小于
>= 大于等于
<= 小于等于
<> 不等于
  除了上面所提到的运算符外,LIKE运算符在where条件从句中也非常重要。LIKE运算符的功能非常强大,通过使用LIKE运算符可以设定只选择与用户规定格式相同的记录。此外,我们还可以使用通配符“%”用来代替任何字符串。举例如下:
select firstname, lastname, city
from employee
where firstname LIKE ‘E%’;
(注意,字符串必须被包含在单括号内)
上述SQL语句将会查询所有名称以E开头的姓名。或者,通过如下语句:
select * from employee
where firstname = ‘May’;
查询所有名称为May的行。
SQL语言快速入门之二
创建表格
SQL语言中的create table语句被用来建立新的数据库表格。Create table语句的使用格式如下:
create table tablename
(column1 data type,
column2 data type,
column3 data type);
如果用户希望在建立新表格时规定列的限制条件,可以使用可选的条件选项:
create table tablename
(column1 data type [constraint],
column2 data type [constraint],
column3 data type [constraint]);
举例如下:
create table employee
(firstname varchar(15),
lastname varchar(20),
age number(3),
address varchar(30),
city varchar(20));
简单来说,创建新表格时,在关键词create table后面加入所要建立的表格的名称,然后在括号内顺次设定各列的名称,数据类型,以及可选的限制条件等。注意,所有的SQL语句在结尾处都要使用“;”符号。
使用SQL语句创建的数据库表格和表格中列的名称必须以字母开头,后面可以使用字母,数字或下划线,名称的长度不能超过30个字符。注意,用户在选择表格名称时不要使用SQL语言中的保留关键词,如select, create, insert等,作为表格或列的名称。
数据类型用来设定某一个具体列中数据的类型。例如,在姓名列中只能采用varchar或char的数据类型,而不能使用number的数据类型。
SQL语言中较为常用的数据类型为:
char(size):固定长度字符串,其中括号中的size用来设定字符串的最大长度。Char类型的最大长度为255字节。
varchar(size):可变长度字符串,最大长度由size设定。
number(size):数字类型,其中数字的最大位数由size设定。
Date:日期类型。
number(size,d):数字类型,size决定该数字总的最大位数,而d则用于设定该数字在小数点后的位数。
最后,在创建新表格时需要注意的一点就是表格中列的限制条件。所谓限制条件就是当向特定列输入数据时所必须遵守的规则。例如,unique这一限制条件要求某一列中不能存在两个值相同的记录,所有记录的值都必须是唯一的。除unique之外,较为常用的列的限制条件还包括not null和primary key等。Not null用来规定表格中某一列的值不能为空。Primary key则为表格中的所有记录规定了唯一的标识符。
向表格中插入数据SQL语言使用insert语句向数据库表格中插入或添加新的数据行。Insert语句的使用格式如下:
insert into tablename
(first_column,...last_column)
values (first_value,...last_value);
例如:
insert into employee
(firstname, lastname, age, address, city)
values (‘Li’, ‘Ming’, 45, ‘No.77 Changan Road’, ‘Beijing”);
简单来说,当向数据库表格中添加新记录时,在关键词insert into后面输入所要添加的表格名称,然后在括号中列出将要添加新值的列的名称。最后,在关键词values的后面按照前面输入的列的顺序对应的输入所有要添加的记录值。
更新记录
SQL语言使用update语句更新或修改满足规定条件的现有记录。Update语句的格式为:
update tablename
set columnname = newvalue [, nextcolumn = newvalue2...]
where columnname OPERATOR value [and|or column OPERATOR value];
例如:
update employee
set age = age+1
where first_name= ‘Mary’and last_name= ‘Williams’;
使用update语句时,关键一点就是要设定好用于进行判断的where条件从句。
删除记录
SQL语言使用delete语句删除数据库表格中的行或记录。Delete语句的格式为:
delete from tablename
where columnname OPERATOR value [and|or column OPERATOR value];
例如:
delete from employee
where lastname = May;
简单来说,当需要删除某一行或某个记录时,在delete from关键词之后输入表格名称,然后在where从句中设定删除记录的判断条件。注意,如果用户在使用delete语句时不设定where从句,则表格中的所有记录将全部被删除。
删除数据库表格
在SQL语言中使用drop table命令删除某个表格以及该表格中的所有记录。Drop table命令的使用格式为:
drop table tablename;
例如:
drop table employee;
如果用户希望将某个数据库表格完全删除,只需要在drop table命令后输入希望删除的表格名称即可。Drop table命令的作用与删除表格中的所有记录不同。删除表格中的全部记录之后,该表格仍然存在,而且表格中列的信息不会改变。而使用drop table命令则会将整个数据库表格的所有信息全部删除。
以上,我们对SQL语言主要的命令和语句进行了较为详细的介绍。应该说SQL语句的语法结构和风格还是相当简单和直观的,只要用户结合实践多加练习,一定会在短期内迅速掌握。
SQL语言快速入门之三
我们日常使用SQL语言的工作过程中,使用最多的还是从已经建立好的数据库中查询信息。下面,我们就来详细介绍一下如何使用SQL语言实现各种数据库查询操作。
SELECT…FROM
  为方便讲解,我们在数据库中创建名为Store_Information的如下数据表。
Store_Information
Store_Name
Sales
Date

Los Angeles
$1500
Jan-10-2000

San Diego
$250
Jan-11-2000

Los Angeles
$300
Jan-12-2000

Boston
$700
Jan-12-2000
  SQL语言中用于数据库查询的最简单的命令就是SELECT…FROM,语法格式为:
SELECT "column_name" FROM "table_name"
例如,如果我们希望查询Store_Information数据表中所有的商店名称时,可以使用如下命令:
SELECT store_name FROM Store_Information
查询结果显示为:
Store_Name
Los Angeles
San Diego
Los Angeles
Boston
如果用户希望一次查询多个字段,可以将所要查询的字段名称依次加入SELECT关键字之后,中间用“,”隔开即可。
DISTINCT
  SELECT关键字支持用户查询数据表中指定字段的所有数据,但是这样有时就会不可避免的出现重复信息。如果用户希望只查询那些具有不同记录值的信息的话,可以使用SQL语言的DISTINCT关键字。语法格式如下:
SELECT DISTINCT "column_name"
FROM "table_name"
例如,我们可以使用以下命令查询Store_Information数据表具有不同记录值的所有记录。
SELECT DISTINCT Store_Name FROM Store_Information
查询结果如下:
Store_Name
Los Angeles
San Diego
Boston
WHERE
  除了选择具有不同记录值的记录之外,有时我们可能还会需要根据某些条件对数据库中的数据进行查询。例如,我们可能需要查询Store_Information数据表中销售额超过1000美圆的商店。为此,我们可以使用SQL语言的WHERE关键字设定查询条件。语法格式如下:
SELECT "column_name"
FROM "table_name"
WHERE "condition"
由此,我们可以使用如下命令查询销售额超过1000美圆的商店信息:
SELECT store_name FROM Store_Information WHERE Sales > 1000
查询结果显示为:
store_name
Los Angeles
运算函数
  现在,我们已经了解到在使用SQL语言进行数据库查询操作时可以通过对数值的判断设定灵活的查询条件。为了增强对运算的支持能力,SQL提供了众多实用的运算函数供广大用户使用。例如,我们可以直接在SQL命令中调用SUM或AVG这两个分别用于计算总数和平均数的函数。语法格式如下:
SELECT "function type"("column_name")
FROM "table_name"
如果我们希望查询Store_Information数据表中所有商店的总销售额的话,可以使用如下命令:
SELECT SUM(Sales) FROM Store_Information
查询结果显示为:
SUM(Sales)
$2750
COUNT
  除了SUM和AVG函数之外,COUNT函数是SQL语言中另一个较为常用的运算函数。COUNT函数可以用来计算数据表中指定字段所包含的记录数目。语法格式为:
SELECT COUNT("column_name")
FROM "table_name"
例如,如果我们希望查询Store_Information数据表中的有关商店的记录条数时,可以使用如下命令:
SELECT COUNT(store_name)
FROM Store_Information
查询结果显示为:
Count(store_name)
4
COUNT函数可以和DISTINCT关键字一起使用从而可以查询数据表中指定字段中所有具有不同记录值的记录数目。例如,如果我们希望查询Store_Information数据表中不同商店的数目时,可以使用如下命令:
SELECT COUNT(DISTINCT store_name)
FROM Store_Information
查询结果显示为:
Count(DISTINCT store_name)
3
GROUP BY
下面我们来进一步看一下SQL语言中的集合函数。上文中,我们曾使用SUM函数计算所有商店的销售总额,如果我们希望计算每一家商店各自的总销售额时该怎么办呢?要实现这一目的我们需要做两件事:首先,我们需要查询商店名称和销售额两个字段;然后,我们使用SQL语言的GROUP BY命令将销售额按照不同的商店进行分组,从而计算出不同商店的销售总额。GROUP BY命令的语法格式为:
SELECT "column_name1", SUM("column_name2")
FROM "table_name"
GROUP BY "column_name1"
我们可以使用如下命令实现上述查询目的:
SELECT store_name, SUM(Sales)
FROM Store_Information
GROUP BY store_name
查询结果显示为:
store_name SUM(Sales)
Los Angeles $1800
San Diego $250
Boston $700
小注:
GROUP BY关键字一般应用于同时查询多个字段并对字段进行算术运算的SQL命令中。
HAVING
用户在使用SQL语言的过程中可能希望解决的另一个问题就是对由sum或其它集合函数运算结果的输出进行限制。例如,我们可能只希望看到Store_Information数据表中销售总额超过1500美圆的商店的信息,这时我们就需要使用HAVING从句。语法格式为:
SELECT "column_name1", SUM("column_name2")
FROM "table_name"
GROUP BY "column_name1"
HAVING (arithematic function condition)
(GROUP BY从句可选)
由此,我们可以使用如下命令实现上述查询目的:
SELECT store_name, SUM(sales)
FROM Store_Information
GROUP BY store_name
HAVING SUM(sales) > 1500
查询结果显示为:
store_name SUM(Sales)
Los Angeles $1800
小注:
SQL语言中设定集合函数的查询条件时使用HAVING从句而不是WHERE从句。通常情况下,HAVING从句被放置在SQL命令的结尾处。下面,我们重点介绍一下如何在SQL命令中设定别名。SQL语言中一般使用两种类型的别名,分别为字段别名和数据表别名。
简单的说,使用字段别名可以帮助我们有效的组织查询的输出结果。例如,上文所列举的多个实例中,当我们计算商店销售总额时,显示结果中就会出现SUM(sales)。虽然SUM(sales)并不会对我们理解查询结果带来不便,但是如果我们需要在查询中使用多项复杂运算时,显示结果就不会这么直观了。如果这时我们使用字段别名就会极大的提高查询结果的可读性。
对于数据表别名,我们可以通过将别名直接放置在FROM从句中数据表名称的后面设定。数据表别名在我们下面将要讲述的连接多个数据表进行查询的操作中极为有用。
字段和数据表别名的语法格式如下:
SELECT "table_alias"."column_name1" "column_alias"
FROM "table_name" "table_alias"
即别名都直接放置在各自对应名称的后面,中间用空格分开。
以Store_Information数据表为例,我们可以在GROUP BY一节中所使用的SQL命令中设置如下字段和数据表别名:
SELECT A1.store_name Store, SUM(Sales) "Total Sales"
FROM Store_Information A1
GROUP BY A1.store_name
查询结果显示为:
Store Total Sales
Los Angeles $1800
San Diego $250
Boston $700
连接多个数据表
最后,我们来看一下如果使用SQL语言连接多个数据表,实现对多个数据表的查询。为方便讲解,我们在数据库中分别创建了两个名为Store_Information和Region的数据表。
Store_Information
Store_Name
Sales
Date

Los Angeles
$1500
Jan-10-2000

San Diego
$250
Jan-11-2000

Los Angeles
$300
Jan-12-2000

Boston
$700
Jan-12-2000
Region
Region_Name
Store_Name

East
Boston

East
New York

West
Los Angeles

West
San Diego
下面,我们就来看一下通过数据表的连接实现按不同区域查询销售额。
我们注意到在名为Region的数据表中包含区域和商店两个字段信息,而在名为Store_Information的数据表中则包含每一家商店的销售信息。因此,为了得到按区域划分的销售信息,我们需要将两个不同数据表的信息结合在一起进行查询。通过对上述两个数据表的分析,我们发现每个数据表中都包含一个名为Store_Name的字段,因此,我们可以使用如下命令实现查询目的:
SELECT A1.region_name REGION, SUM(A2.Sales) SALES
FROM Geography A1, Store_Information A2
WHERE A1.store_name = A2.store_name
GROUP BY A1.region_name
查询结果显示为:
REGION SALES
East $700
West $2050
说明:
上述查询命令的前两行用于指定所要查询的目标字段,分别为Region数据表中的Region_Name字段和Store_Information数据表中Sales字段的记录值总数。这里,我们设定两个字段的别名分别为REGION和SALES,两个数据表的别名分别为A1和A2。如果我们只使用字段别名而不设定数据表别名的话,上述SQL命令的第一行就变成 如下形式:
SELECT Region.Region_Name REGION, SUM(Store_Information.Sales) SALES
由此我们可以看出有效的使用数据表别名,可以极大的简化对多个数据表进行操作的SQL命令。
上述查询命令的第3行为WHERE从句,正是该从句设定了两个数据表的连接条件。因为我们希望确保Region数据表中的Store_Name字段能够与Store_Information数据表中的同名字段相对应,所以我们规定两个字段的记录值应当相等。在连接多个数据表时,一定要准确设定数据表的连接条件,如果WHERE从句设定不正确,则可能导致查询结果中出现众多不相关的数据

数据库关系完备的系统,sql多列数据整合成一列

大数据应用程序最佳选择:是SQL还是NoSQL

执行大数据[注]项目的企业面对的关键决策之一是使用哪个数据库,SQL还是NoSQL?SQL有着骄人的业绩,庞大的安装基础;而NoSQL正在获得可观的收益,且有很多支持者。我们来看看两位专家对这个问题的看法。
专家
·VoltDB公司首席技术官Ryan Betts表示,SQL已经赢得了大型企业的广泛部署,大数据是它可以支持的另一个领域。
·Couchbase公司首席执行官Bob Wiederhold表示,NoSQL是可行的选择,并且从很多方面来看,它是大数据的最佳选择,特别是涉及到可扩展性时。
SQL经历时间的考验,并仍然在蓬勃发展
VoltDB公司首席技术官Ryan Betts
结构化查询语言(SQL)是经过时间考验的胜利者,它已经主宰了几十年,目前大数据公司和组织(例如谷歌、Facebook、Cloudera和Apache)正在积极投资于SQL。
在成为主导技术(例如SQL)后,有时候我们很容易忘记其优越性。SQL的独特优势包括:
1. SQL能够加强与数据的交互,并允许对单个数据库设计提出问题。这是很关键的特征,因为无法交互的数据基本上是没用的,并且,增强的交互性能够带来新的见解、新的问题和更有意义的未来交互。
2. SQL是标准化的,使用户能够跨系统运用他们的知识,并对第三方附件和工具提供支持。
3. SQL能够扩展,并且是多功能和经过时间验证的,这能够解决从快写为主导的传输到扫描密集型深入分析等问题。
4. SQL对数据呈现和存储采用正交形式,一些SQL系统支持JSON和其他结构化对象格式,比NoSQL具有更好的性能和更多功能。
虽然NoSQL的出现带来了一些影响,但SQL仍然主导着市场,并在大数据领域赢得了很多投资和广泛部署。
NoSQL的说法很含糊,对于本次讨论,我借用Rick Cattell对NoSQL的定义,即提供简单操作(例如密钥/数值存储)或简单记录和索引,并专注于这些简单操作的横向可扩展性的系统。
很显然,现在很多新的数据库并不是都一样,认识每种数据库背后的原理以及潜在问题是成功的关键。NoSQL的主要特点使其更适合于特定的问题。例如,图形数据库更适合于数据通过关系组织的情况,而专门的文本搜索系统更适合于需要实时搜索的情况。
在这里,让我们看看SQL系统的主要优势和差异化功能:
* SQL可实现交互性。 SQL是一种声明性查询语言。用户说出他们想要什么(例如,显示过去五年三月份期间顶级客户的地理位置),数据库内部就会构件算法并提取请求的结果。相比之下,NoSQL编程创新MapReduce是一种程序性查询技术。在用户提出请求时,MapReduce要求用户不仅说出自己想要什么,而且要求他们陈述如何产生答案。
这听起来像一个无趣的技术差异,但这很关键,原因在于:首先,声明性SQL查询更容易通过图形化工具以及点击报告构建器来构建。这让分析师、操作员、管理者和其他不具备软件编程能力的员工进行数据库查询;其次,数据库引擎可以利用内部信息来选择最有效的算法。改变数据库的物理布局或数据库,最佳算法仍然能够计算出来。而在程序性系统中,编程人员需要重新访问和重新编程算法,这是非常昂贵且容易出错的过程。
市场理解这个关键区别。在2010年,谷歌宣布部署SQL来补充MapReduce,主要受内部用户需求所驱动。最近,Facebook发布了Presto(一种SQL部署)来查询其PB级HDFS集群。根据Facebook表示:“随着我们的仓库增长到PB级,以及我们的需求变化,我们清楚地意识到,我们需要一个提供低延时查询的互动系统。”此外,Cloudera也正在构建Impala—另一个基于HDFS的SQL部署。
* SQL是标准化的。 虽然供应商有时候会添加自己的语言到SQL界面,但SQL的核心是标准化的,还有其他规格(例如ODBC和JDBC)提供广泛可用的稳定界面到SQL存储。这带来了一个管理和操作工具生态系统,可以在SQL系统之上设计、监控、检查、探索和构建应用程序。
SQL用户和程序员可用跨多个后端系统重复使用其API和UI知识,减少了应用程序的开发时间。标准化还允许声明性第三方提取、转换、加载(ETL)工具,使企业可以在数据库之间以及跨系统传输数据。
* SQL可扩展。 认为SQL必须牺牲以获得可扩展性的看法,完全是错误的。如前所述,Facebook创建了一个SQL界面来查询PB级数据。SQL能够非常有效地运行极快的ACID传输。SQL对数据存储和索引提供的抽象[注]化允许跨各种问题和数据集大小的一致使用,让SQL可以跨集群复制数据存储有效地运行。使用SQL作为界面独立于构建云、规模或HA系统,SQL中并没有什么在阻止和限制容错、高可用性和复制。事实上,所有现代SQL系统支持云友好型横向可扩展性、复制和容错性。
* SQL支持JSON。 几年前,很多SQL系统增加了XML文档支持。现在,随着JSON成为一种流行的数据交换格式,SQL供应商也纷纷加入了JSON型的支持。基于现在灵活的编程过程和web基础设施的正常运行时间要求,我们很需要结构化数据类型的支持。Oracle 12c、PostgreSQL 9.2、VoltDB和其他支持JSON的数据库,通常具有优于“原生”JSON的性能。
SQL将继续赢得市场份额,并会继续看到新的投资和部署。NoSQL数据库提供专有查询语言或简单的键值语义,而没有更深层次的技术差异化。现代SQL系统提供可扩展性的同时,还支持更丰富的查询语义,并有庞大的用户安装基础,广泛的生态系统整合和深度企业部署。
NoSQL更适合大数据应用程序
Couchbase公司首席执行官Bob Wiederhold
NoSQL越来越多地被认为是关系型数据库的可行替代品,特别是对于大数据应用程序。此外,无模式数据模型通常更适合于现在捕捉和处理的数据种类和类型。
当我们谈论NoSQL领域的大数据时,我们指的是从操作数据库读取和写入。不要将操作数据库与分析数据库混淆,这通常会查看大量数据,并从这些数据获取可视性。
虽然操作数据库的大数据看起来不具有可分析性,但操作数据库通常会存储超大量用户的大型数据集,这些用户经常需要访问数据来实时执行交易。这种数据库的操作规模也解释了NoSQL的关键特性,也就是为什么NoSQL是大数据应用程序的关键的原因。
NoSQL是可扩展性的关键
每次技术行业经历硬件发展的根本性转变时,都会出现一个拐点。在数据库领域,从纵向扩展到横向扩展的转变推动了NoSQL的发展。关系型数据库(包括来自甲骨文和IBM的数据库)是纵向扩展。也就是说,它们是集中式、共享一切的技术,只能通过增加更多昂贵的硬件来扩展。
而NoSQL数据库是分布式横向扩展技术。它们使用了分布式节点集(称为集群)来提供高度弹性扩展功能,让用户可以添加节点来动态处理负载。
分布式横向扩展的做法通常要比纵向做法更加便宜。商业关系型数据库的授权费用也让人望而却步,因为他们的价格是按每台服务器来计算。另一方面,NoSQL数据库通常是开源技术,按照运行的服务器集群收费,而且价格相对便宜。
NoSQL是灵活性的关键
关系型数据库和NoSQL数据模型有很大的不同。关系型模式获取数据,并将数据分配到很多相互关联的表中,这些表通过外键相互应用。
当用户需要对数据集运行查询时,所需信息需要从多个表中收集(通常涉及数百个企业应用程序),并结合这些信息,再提供给应用程序。同样地,当写入数据时,需要在多个表协调和执行写入。当数据相对较少,并且,数据以较慢速度流入数据库时,关系型数据库通常能够捕捉和存储信息。然而,现在的应用程序通常需要快速写入(和读取)海量数据。
NoSQL数据库采用非常不同的模式。在其核心,NoSQL数据库其实是“NoREL”,或者说非关系型,这意味着它们没有依赖于表以及表之间的联系,以存储和组织信息。例如,以文档为导向的NoSQL数据库获取你想要存储的数据,并采用JSON格式整合到文档中。每个JSON文档可以被你的应用程序视为一个对象。JSON文档可能会提取跨越25个表的数据,将数据集成到一个文档中。
聚合这些信息可能会导致信息重复,但由于存储已不再是一个成本问题,数据模型灵活性、发布所产生文档的简便性以及读取和写入性能提高,让这成为不错的选择。
NoSQL是大数据应用程序的关键
通过第三方(包括社交媒体网站),数据正变得越来越容易捕捉和访问。这些数据包括:个人用户信息、地理位置数据、用户生产的内容、机器记录数据和传感器产生的数据。企业还可以依赖于大数据来推动其关键任务型应用程序。同时,企业正在转向到NoSQL数据库,因为这种数据库非常适合现在新型的数据类型。
开发人员想要一个灵活的数据库,可以很容易适应新的数据类型,并且,不会受第三方数据供应商的内容结构变化的影响。大多数新数据是非结构化和半结构化,因此,开发人员也需要能够有效存储这些数据的数据库。然而,关系型数据库采用的严格定义的基于模式的做法让其不可能快速整合新数据类型,并且很不适合于非结构化和半结构化数据。
总体来说,随着web和移动应用程序的增加、新的趋势、网上消费者行为的转变以及新的数据类型的出现,行业需要能够提供可扩展的灵活的数据库技术来管理和访问数据。NoSQL技术是有效满足这些需求的唯一可行解决方案。
免责申明:以上内容属作者个人观点,版权归原作者所有,不代表恩施知识网立场!登载此文只为提供信息参考,并不用于任何商业目的。如有侵权或内容不符,请联系我们处理,谢谢合作!
当前文章地址:https://www.esly.wang/jiankang/27913.html 感谢你把文章分享给有需要的朋友!
上一篇:闺蜜为什么一直单身,女生单身的原因搞笑 下一篇:男人表示喜欢你的潜台词「男女交往中男人不断的主动是喜欢你的潜台词」

文章评论