大型机(Mainframe)
大型机(mainframe)这个 词,最初是指装在非常大的带框铁盒子里的大型计算机系统,以用来同小一些的迷你机和微型机有所区别。虽然这个词已经通过不同方式被使用了很多年,大多数时 候它却是指system/360 开始的一系列的IBM计算机。这个词也可以用来指由其他厂商,如Amdahl, Hitachi Data Systems (HDS) 制造的兼容的系统。
有些人用这个词来指IBM的AS/400 或者iSeries 系统,这种用法是不恰当的;因为即使IBM自己也只把这些系列的机器看作中等型号的服务器,而不是大型机。
什么是I/O通道(Channel)
一条大型机通道(channel)某种程度上类似于PCI 总线(bus),它能将一个或多个控制器连接起来,而这些控制器又控制着一个或更多的设备(磁盘驱动器、终端、LAN端口,等等。)大型机通道和PCI总 线之间的一个主要区别是大型机通道通过几对大的bus and tag 电缆(并行通道方式),或者通过最近常使用的ESCON(Enterprise System Connection)光导纤维电缆(串行通道方式)以及光纤通道来连接控制器。这些通道在早期是一些外置的盒子(每个约6’X30’’X5’H大小), 现在都已经整合到了系统框架内。
这些通道的超强I/O处理能力是大型机系统功能如此强大的原因之一。
什么是DASD
DASD 是 Direct Access Storage Device(直接存取存储设备)的缩写;IBM创造这个词来指那些可以直接(并随意)设定地址的存储系统,也就是今天我们所说的磁盘驱动器。但在过去, 这个词也指磁鼓(drums)和数据单元(datacell)等等。什么是数据单元?嗯,在磁盘驱动器变得廉价、快速并普遍使用前,IBM曾经制造过一种 设备,基本上就是由一个磁鼓和绕在磁鼓上的许多磁条(单元)中的一个组成,然后读写的资料就被纪录在卷动的磁条的磁道上。这种存取数据的方法和磁盘很类 似,但当(磁鼓)搜寻资料的时候需要更换磁带的话,所需的时间显然就得按秒来计算。数据单元设备还有个调皮的习惯,它喜欢在卸下一个单元到存储槽的时候卷 成一块,这有时会造成介质的物理损坏。可见,在取得目前的技术进步前,我们已经走了很长一段路了。
什么是LPAR
一个LPAR(逻辑分区 logic partition)是一种通过PR/SM(Processor Resource/System Manager,一种最近的大型机都具有的固件fireware特性)来实施的虚拟机。在每个分区上,可以运行一个单独的镜像系统,并提供完全的软件隔 离。这和UNIX操作系统上的domains 原理很相似,但IBM的方法更加细致,它允许所有的CPU和I/O子系统可以在逻辑分区间被共享。PR/SM允许在单个系统上运行15个LPAR,每个 (LPAR)拥有专有真实存储(dedicated real storage RAM)并且拥有专有或共享的CPU和通道。因为对性能影响最为重要的部分都是在CPU里完成的,所以(这样做)没有多少性能的损失。IBM已经宣称它准 备在不久的将来把最高可支持的LPAR数目扩展到超过15个。
大型机系统得以长盛不衰的主要原因(特点)是:RAS,I/O处理能力以及ISA。
RAS
RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)是一个IBM常用来描绘它的大型机的词。到70年代早期为止,IBM已经认识到商业用途系统市场远比科研计算机系统市场有 利可图。他们也知道IBM商用系统的一个重要的卖点就是高可靠性。如果他们的商业客户准备采用IBM计算机来开展极其重要的商业业务,客户就得确认他们可 以在任何时间都可以正常使用(IBM的机器)。所以,最近30多年来,IBM致力于使每一个新系列的系统比前一代更加可靠。这就导致了今天的系统变得如此 可靠,以至于几乎没听说过有任何因为硬件问题导致的系统灾难。这些大型机系统内集成了相当高程度的冗余和错误检查(技术),这样就能防止系统发生灾难性的 问题。每个CPU die装有2个完全的执行管道(execution pipelines)来同时执行每一条指令。如果这两条管道得出的结果不相同,CPU的状态就会复原,然后这条指令被重新执行。如果重新执行后结果还是不 一致,最初的CPU状态就被记录下来,然后一个空闲的CPU被激活并装入存储的状态数据。这颗CPU继续做最初那颗CPU的工作。记忆芯片、内存总线、 I/O通道、电源等等,都要么有冗余的设计,或者有相应的备用品并可以随时投入使用。这些(设备的)小错误可能会导致性能的一些小损失,但他们决不会导致 系统中任何任务的失败。
当很罕见地出现错误的时候,高服务性就用得上了。许多组件都可以在系统运行的同时被更换(热插拔);甚至微码(microcode)的升级也可以在系统运行的同时进行。对于那些不能被同时更换的部件,如CPU,备用品的存在就保证了能够客户方便的时候安排系统停机。
除 了系统设计中的固有可靠性,IBM也创立了一个紧密联结的集群技术,叫做Parallel Sysplex,这项技术支持由最多32个系统作为一个系统镜像运行。在一个合理部署的Parallel Sysplex系统上,即使一个独立系统遭受了毁灭性损失,整个系统也不会受太大影响,而且不会导致任何工作的损失。任何在那台遭受损失的系统的上进行的 工作,都可以自动地在剩下的系统上重新开始。另一个Parallel Sysplex的优势是一台(或多台)系统可以从整个系统中移出以进行硬件或软件的维护工作(例如在非工作时间),而其余的单独系统可以继续处理工作。当 维护工作完成后,系统又回归加入Sysplex系统中继续工作。充分利用这一特点就可以升级整个Sysplex系统软件(一次一个单独的系统),而不会导 致任何应用程序的暂停使用。
正因为拥有所有这些功能,真正100%的系统可用性是非常实用的,并且已经在许多地方开始实施。
I/O 吞吐量(I/O Throughput)
这些通道实际上就是I/O处理器,他们执行通道程序。这些程序包含了成串的I/O指令,其中就包含有最原始的分流功能。这些通道极大地降低了CPU在I/O操作中的工作量,使得CPU可以更加高效地工作。每一个通道都能同时处理许多I/O操作和控制上千个设备。
在360和370系列构架上,操作系统会创建一个通道程序并在一个已连接到所需设备的通道上执行这个程序。如果这个通道或控制单元十分忙碌,起始 I/O指令就会失败,然后操作系统就会尝试在另一个已连接到不同控制单元的通道上重新开始通道程序。如果所有的道路都是繁忙的,操作系统就会把这个请求列 入队列留在以后再试。XA系列里面出现的一个显著的改进就是创立了通道子系统的概念,这个子系统可以协调并安排系统里所有通道的活动。现在操作系统只需要 创立通道程序,然后把程序转交给通道子系统,通道子系统就会处理所有的通道/控制单元以及队列问题。这样就使大型机具有了更加强大的I/O吞吐量并使 CPU能更有效地工作,因为只有在所有的I/O操作都完成的时候才需要CPU的介入。
目前z900大型机的I/O吞吐能力是最低每秒24GB(这是字节数,不是“位”数。)虽然我没有亲自测试这些最新系统的机会,但即使理论上的数字可能不太准确,如果说z900大型机达到了每秒100,000 次I/O,我也不会感到太吃惊。
The ISA (IBM System Architecture)
这些年虽然IBM大型机的整体指令集有了显著改进,IBM保持了惊人的对应用程序的向后兼容。许多最为显著的构架上的变化已经影响了一些只能直接被操作 系统调用,而不能被应用程序调用的设备(如I/O子系统)。IBM已经花费了巨大的努力来保证它的客户们不必重写或重编译他们的程序来在新系统上运行。这 样,客户要采用新的硬件就更为容易,客户只需要拔下旧系统,换上新系统,而不需要做额外的软件测试工作。对于只有拥有一台大型机的公司来说,只需要花几个 小时就可以对旧系统进行升级,而不需要在投入正式使用前对新系统进行测试。这特别适合那些在升级前后使用同一种操作系统的客户,他们只需要将操作系统升级 到所需要的版本就行了。例如,客户可以在新安装的z900系统上仍然运行31位的操作系统,然后在一个单独的LPAR上安装并测试一个64位的操作系统, 然后再把全部运行的业务转移到64位的操作系统上。
大型机类型:9672/9674 = ES/9000=S/390=zSeries
中型机类型:9506/9402=AS/400=iSeries
小型机类型:RS/6000=pSeries,HP9000,SUN SPARC
小型机**********************
不 同品牌的小型机架构大不相同,使用RISC、MIPS处理器,像美国Sun、日本Fujitsu等公司的小型机是基于SPARC处理器架构,而美国HP 公司的则是基于PA-RISC架构,Compaq公司是Alpha架构,IBM和SGI等的也都各不相同;I/O总线也不相同,Fujitsu是PCI, Sun是SBUS,等等,这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的;操作系统一般是基于Unix的,像Sun、 Fujitsu是用Sun Solaris,HP是用HP-Unix,IBM是AIX,等等,所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全 性、可靠性和专用服务器的高速运算能力。
小型机一般都是用UNIX操作系统,以前IO不兼容,现在基本上都是PCI总线,外设板卡一般都是兼容的。SBUS之类都是古董了。
巨型机**********************
事实上,绝大多数当今的巨型机都是MPP或NUMA架构的,而且都采用INTEL或RISC节点。
所以说,绝大部分巨型机是由开放系统节点机(包括开放系统小型机)组成的。
巨型机是用途完全不同的东西,主要强调的是并行计算、共享内存,追求的是性能,动辄用几千个CPU,也有的用的不是CPU,而是专用的向量处理机,主要用于科学计算。典型编程语言是fortran、c。
大型机相关信息****************************
按 照IBM的说法,大型机有S/390,中型机有AS/400,小型机有RS/6000,S/390运行z/OS或者Linux/390,主要指标在于年档 机只有几小时,所以又统称为z系列(zero),AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI,单级存储,有了 TIMI技术可以做到硬件与软件相互独立。RS/6000比较常见,用于科学计算,事务处理。
大型机本来就不是以处理能力见长,各种排行榜如TPCC上,很少看到大型机,IO/RAS的优势现在也不明显了,以前EMC、HDS的存储都是用于大型机的,现在它们的主要市场都在小型机上,100000IOPS已经不稀奇了。
在CPU/内存容量/IO带宽方面,相对小型机里面的旗舰级产品如Sun15K,HP Superdome, IBM P690,没有优势。
大型机技术上还有很多领先的地方,但是性价比不敢恭维。不过积累了很多行业应用,一大堆非关系数据库/Cobol程序之类,这些东东没法移植,成为大型机吃老本的资本。
IBM的大型机概念强调的是IO和RAS,追求的是稳定、可靠,主要用于商业管理系统;典型编程语言是Cobol。
=========================================================================================
小型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机,它是70年代由DCE(数字设备公司)公司首先开发的一种高性能计算产品。
小 型机具有区别PC及其服务器的特有体系结构,还有各制造厂自己的专利技术,有的还采用小型机专用处理器,比如美国Sun、日本Fujitsu(富士通)等 公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构;Compaq公司是Alpha架构。另外I/O总线也不相 同,Fujitsu是PCI,Sun是SBUS,等等。这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的。
此 外,小型机使用的操作系统一般是基于Unix的,像Sun、Fujitsu是用Sun Solaris,HP是用HP-Unix,IBM是AIX。所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可 靠性和专用服务器的高速运算能力。
现在生产小型机的厂商主要有IBM和HP及浪潮、曙光等。IBM典型机器有RS/6000、AS /400等。它们的主要特色在于年宕机时间只有几小时,所以又统称为z系列(zero 零)。AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI(技术独立机器界面),单级存储,有了TIMI技术可以做到硬 件与软件相互独立。RS/6000比较常见,用于科学计算和事务处理等。
A.大型机
大型计算机,作为大型商业服务器,在今天仍具有很大活力。它们一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面,其应用软件通常是硬件本身成本的好几倍,因此大型机仍有一定地位。
大 型机体系结构的最大好处是无与伦比的I/O处理能力。虽然大型机处理器并不总是拥有领先优势,但是它们的I/O体系结构使它们能处理好几个PC服务器放一 起才能处理的数据。大型机的另一些特点包括它们的大尺寸和使用液体冷却处理器阵列。在使用大量中心化处理的组织中,它们仍有重要的地位。
由于小型机的到来,新型大型机的销售已经明显放慢。在电子商务系统中,如果数据库服务器或电子商务服务器需要高性能、高I/O处理能力,可以采用大型机。
B.小型机
小型机仅仅是低价格、小规模的大型计算机,典型的小型机运行UNIX或者象MPE、 VEM等专用的操作系统。它们比大型机价底,却几乎有同样的处理能力。HP的9000系列小型机几乎可与IBM的传统大型计算机相竞争。
在高端小型机一般使用的技术有:基于RISC的多处理器体系结构,兆数量级字节高速缓存,凡千兆字节RAM,使用I/O处理器的专门I/O通道上的数百GB的磁盘存储器,以及专设管理处理器。它们较小并且是气冷的,因此对客户现场没有特别的冷却管道要求。
目前,生产和销售小型机的公司有HP和IBM。
小 型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机,它是70年代由DCE(数字设备公司)公司首先开发 的一种高性能计算产品。 小型机具有区别PC及其服务器的特有体系结构,还有各制造厂自己的专利技术,有的还采用小型机专用处理器,比如美国Sun、日本Fujitsu(富士通) 等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构;Compaq公司是Alpha架构。另外I/O总线也不相 同,Fujitsu是PCI,Sun是SBUS,等等。
这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用 的。此外,小型机使用的操作系统一般是基于Unix的,像Sun、Fujitsu是用Sun Solaris,HP是用HP-Unix,IBM是AIX。所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可 靠性和专用服务器的高速运算能力。
现在生产小型机的厂商主要有IBM和HP及浪潮、曙光等。IBM典型机器有RS/6000、AS /400等。它们的主要特色在于年宕机时间只有几小时,所以又统称为z系列(zero 零)。AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI(技术独立机器界面),单级存储,有了TIMI技术可以做到硬 件与软件相互独立。RS/6000比较常见,用于科学计算和事务处理等。
其实,现在小型机跟中型机跟大型机之间没有绝对明确的界限了,因为IBM把很多原来只在大型机和中型机上应用的技术都在小型机中实现了。
小型机跟普通的服务器(也就是常说的PC-SERVER)是有很大差别的,我觉得最重要的一点就是小型机的高RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)特性。
RAS是Reliability, Availability, Serviceability三个英文单词的缩写,它们反映了计算机的高可靠性、高可用性、高服务性三个著名特点,它们的具体含义如下:
高可靠性(Reliability):计算机能够持续运转,从来不停机。
高可用性(Availability):重要资源都有备份;能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到其它资源,以减少停机时间,保持生产的持续运转;具有实时在线维护和延迟性维护功能。
高服务性(Serviceability):能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。
关于IBM的小型机的RAS特性,不得不提到IBM eLiza(蜥蜴)计划。详见[url]http://www-900.ibm.com/cn/support/nav/200202/p39.shtml[/url]
eLiza 的称呼最早起源于六十年代中期IBM的一个计划,即采用人工智能技术设计一种实现人和计算机之间通讯的程序。在九十年代,IBM设计的深蓝超级计算机战胜 了国际象棋大师卡斯帕罗夫,其综合处理能力可比喻于一个蜥蜴(lizard)所具有的功力,即具有预测防范、处理判断以及自我愈合再生能力。
在当今的IT世界,众多企业都无情地面对一个巨大挑战:为了构成一个强大的灵活自如的电子商务运做环境,需要使用大量的服务器、网络设备、复杂的应用软件等,这些设备所涉及的IT技术在发生着日新月异的变化,企业严重缺乏有经验的工程师来维护和管理整个软硬件系统。
IBM公司综合自己多年的IT经验,应运而生的提出了eLiza计划,并给它赋予了具有前瞻性的重要内容:即现代企业要想处于不败的竞争地位,其电子商务环境所使用的软硬件系统应具备下列四项原则:
自我配置能力:系统可以动态自我配置有关资源。
自我保护能力:系统有能力保护自己,不受到非法访问和攻击。
自我愈合能力:系统能够自动预测错误、避免错误、修复错误、取代有关错误部件。
自我优化能力:系统能够自动监视和管理有关资源,将系统性能调整到最佳状态。
为了达到以上目标,系统还需具备以下七个要素:
负载管理(Workload Management)
安全机制(Security)
群集技术(Clustering)
虚拟主机托管(Virtual Server Hosting)
端到端的自动控制(End-to-End Automation)
灾难恢复机制(Disaster Recovery)
端到端的系统管理(End-to-End Systems Management)
下面是IBM p690服务器的RAS特性的介绍,来自[url]http://www-900.cn.ibm.com/cn/products/servers/pseries/tech/p690_ras1.shtml[/url]
自动首次错误数据捕获和诊断错误隔离能力
自治愈内部POWER4处理器组冗余
业界第一的PCI总线奇偶错误恢复
避免检查中止的不可收集错误处理
动态错误恢复
错误检查和纠正(ECC)或在主存上的等价保护,所有一、二、和三级缓存和内部处理器组
连续和冗余的位操作被使主存具有自治愈功能
在主存上具有的Chipkill纠正功能
N 1的冗余电源,双电源线,和对电源及风扇的在线维护
针对处理器、缓存、内存、I/O和DASD的预计性错误分析
基于运行时错误来决定是否分离处理器运行和启动(动态处理器离线和永久处理器离线)
缓存和主存的离线技术
通过选择高品质的部件最大限度的减少故障
针对电源、风扇和I/O子系统的基于首次故障数据捕获技术的并行、运行间检测技术
0 条评论。