Archive.org:互联网档案馆编辑本段回目录
2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。
网站名称:Internet Archive(http://www.archive.org/index.php)
上线时间:1996年
网站地点:美国加州(San Francisco, CA)
Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。
但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。
此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。
以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。
Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。
虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆(The Internet Archive)编辑本段回目录
目前,“互联网档案计划”分为六大部分:
网址:http://www.archive.org/details/texts
这个部分,我以前已经介绍过了,它专门收集公共领域的书籍和文档,任何人都可以免费下载。截至到今天,共有29万多种材料,堪称互联网上最好的公共领域图书搜索引擎。
它主要收集英语书籍,但也包括少部分其他语种的书籍,比如朱熹的《论语集注》。
二、网页
网址:http://www.archive.org/web/web.php
这个部分有个专门的名字,叫做”时光倒流机器“(Wayback Machine),它像收集旧报纸那样收集旧网页。举例来说,Yahoo!的首页就有5000多份档案,最早的可以回溯到1996年10月17日,最近的则是2007年8月30日。
要将全世界的网页都保存下来,这需要多大的存储容量啊?根据2006年的统计,当时Wayback Machine的存储容量有2000T,然后还在以每月20T的速度增加。
三、视频
网址:http://www.archive.org/details/movies
这个部分收集视频材料,你在其中可以找到动画片和电影。
四、音频
网址:http://www.archive.org/details/audio
音频材料主要是有声书籍和音乐。
五、软件
网址:http://www.archive.org/details/software
六、教育材料
网址:http://www.archive.org/details/arsdigita
这部分主要是美国大学课程,有视频和文字材料下载,相当于不去北美就可以上那里的课,比如麻省理工学院的《微分方程》和Naropa大学的《艾伦·金斯堡的诗歌》。
互联网档案馆:带我们回到过去编辑本段回目录
互联网档案馆(Internet Archive),一个非营利网站,致力于为互联网上曾经存在过的网站建立数字图书馆。与线下实体图书馆一样的经营模式,面对研究者、历史学家、学者以及公众免费开放。
这是一个让人感到时光飞逝物是人非的网站。记录了很多曾经辉煌一时现在早已消失或者已经走向没落的网站,也记录了存活至今的网站们一次又一次改版。
网站首页主板块首行正中放置着网页搜索框,上面印着“时光机(Way Back Machine)”字样,输入网址,点击“带我回到过去”,用户便可以看到历史中的那个网页的模样。试着搜索 2000 年的新浪网。
下面附上今天新浪首页截图,变化真不小。
最初互联网档案馆只收藏网页,后来其将收藏范围扩展到视频、音乐、文本文档、IT项目等。
2012 年十月份时,互联网档案馆馆藏资料的体积约为 10 千万亿字节。当时这个非营利的数字图书馆正在筹集资金,希望能在年底前购买 4 千万亿字节的存储设备。互联网档案馆的馆藏资料以每月 190 T 字节的速度增加。也就是说,每 5.4 个月,档案馆便需要新增 1 千万亿字节的存储设备。
今年,互联网档案馆急速扩张,它与其他独立档案馆建立了合作关系,新增软件馆藏和文档馆藏,比如苹果I手册。
“互联网档案馆”记录你一生的轨迹编辑本段回目录
互联网档案馆开始提供140万合法BT文件编辑本段回目录
互联网档案馆(The Internet Archive)开始提供140万图书、电影、音乐和音乐会合法BT文件下载。电子前哨基金会(EFF)创始人John Gilmore说,互联网档案馆正帮助人们理解BitTorrent不只是短期内有效的东西。
BitTorrent是帮助获取和分享大文件的极好方式,能由互联网档案馆之类的图书馆永久做种。互联网档案馆创始人Brewster Kahle认为这是图书馆和BT社区合作共生的大好机会。
互联网档案馆欲在2012年底前筹资购买3PB的存储空间编辑本段回目录
非盈利数字图书馆和Wayback Machine的建造者——互联网档案馆(the Internet Archive),正试着在今年年底前筹集足够的资金,以购买4PB的存储空间。到目前为止,他们只达成了总目标的25%,也可以说是1PB的存储空间。
截止2012年10月,互联网档案馆大约保持着大约10PB级别的材料,如果服务按照每月约190TB的数据增长,那么接下去的两年只能存储很少的数据了(5.4个月≈1PB)。
无论你是否会对这项事业做出捐赠,重要的是你要记住:在过去16年里所记载的Web的进化,互联网档案馆扮演了难以置信的角色。(互联网档案馆也记录了苹果、亚马逊和Google等网站最初始的快照)