400-638-8808
|
微信公众号
1.硬件
设计数据中心的时候,我们的目标是在每个环节上有冗余的时候保持系统最大的可用性,因此,即使有些环节不工作了,可影响不会受到影响。
·服务器使用了日常硬件:我们所有的服务器硬件基于Inter Core i3处理器,16G内存和3TB的存储空间,为了做到最大可用性,设备共用了硬盘、网卡、路由和交换机。
多UPS和发电设备:我们意识到在印度经常会停电。我们不能因为停电而牺牲服务器,因此我们设置了多个UPS,一个附加的发电设备——用来防备USP也撑不住的时候。
·多个网络专线:虽然有一条专线我们的服务器和爬虫就应该能7×24小时的工作,但为了防止网络中断,我们做了冗余——来自两个不同服务商的专线。
2.硬件监控和软件配置的工具
自动化的安装、配置和监控至关重要,可以接受日常的维护工作。
·自动安装和配置:Mondo (linux下的ghost)和 Puppet用来完成系统配置的自动化管理。Mondo 用来批量安装Puppt到裸机,Puppt安装既定的设置进行管理和配置。
·监控和警告: Nagios, Munin and WinPower(伊顿中国|winpower),这些软件用来监控我们的私有云设备。Nagios 对主机进行频繁的检查并通过邮件、短信、聊天工具提出警报,我们通过一个蓝牙发射器连接一个废弃手机,用来发送警报短信。
·数据备份:所有数据复制在多个硬盘上备份。关键数据仍然要用一套独立的外部系统和存储设备再备份一次。我们使用rsync配合BackupPC进行每周一次的全局备份和每日的增量备份。周备份按时传送到外部硬盘上。
3.设置爬取设施
我们使用如下开源软件进行7×24小时的爬取、分布式存储和工作处理。
·Hadoop HDFS:阿帕奇Hadoop 是一个支持数据库分布式处理的开源框架。Hadoop Distributed File System (HDFS)是其使用的主要存储系统,HDFS能够串联一个计算机集群中以极快的速度地为数据块进行拷贝和分发。
·上面提到的Cassandra 非关系型数据库:阿帕奇Cassandra 是一个开源的分布式数据库管理系统。它被设计用来通过日常服务器处理大数量级的数据,提供没有单点故障的高可用性。
·Hadoop Map-Reduce :是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的分布式大型集群架构上,并以一种可靠容错的方式并行处理上T级别的数据集。
·Pig脚本:“ Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。”
·Zookeeper:是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
·Apache Nutch :基于Lucene 和 Java的开源搜索引擎,用于爬虫搜索和索引。
·文本处理通过Lucene
4.成本
1)设备支出:
整个设施花费了大概一万二千美元,包括服务器、冷却系统、电源组件的价格,我们从当地供应商购买,自己组装,每个服务器成本控制在了500美元。效率方面从组装到提供给用户需要2-3小时时间。(一小时组装,30分钟用Mondo恢复统一镜像,一小时用Puppt安装和配置)
可视化监控使用了一台LED电视,450美元,用于监测内存使用率、IO状态和抓取状态,同时搭配一个蓝牙发射器(4美元)和废弃手机。
2)设备每月的运营成本
整个系统每月花费1000美元,包括每月互联网线路的租用、电费和房子租金。两个独立线路每月250美元。
3)维护成本
每天不会花费超过30分钟去监控和维护设备。
天下数据手机站 关于天下数据 联系我们 诚聘英才 付款方式 帮助中心 网站备案 解决方案 域名注册 网站地图
天下数据18年专注海外香港服务器、美国服务器、海外云主机、海外vps主机租用托管以及服务器解决方案-做天下最好的IDC服务商
《中华人民共和国增值电信业务经营许可证》 ISP证:粤ICP备07026347号
朗信天下发展有限公司(控股)深圳市朗玥科技有限公司(运营)联合版权
深圳总部:中国.深圳市南山区深圳国际创新谷6栋B座10层 香港总部:香港上環蘇杭街49-51號建安商業大廈7樓
7×24小时服务热线:4006388808香港服务电话:+852 67031102
本网站的域名注册业务代理北京新网数码信息技术有限公司的产品