科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 5848 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2011-10-08
高兴
高兴
发短消息
相关词条
人类拍摄照片数量
人类拍摄照片数量
无法上网的文档
无法上网的文档
教育部年度新词调查报告
教育部年度新词调查报告
门户的求索
门户的求索
千家网
千家网
河套网
河套网
水客网
水客网
adsense for feeds
adsense for feeds
门户
门户
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

无法上网的文档 发表评论(0) 编辑词条

目录

无法上网的文档编辑本段回目录

关于万维网(web)的起源有着流传甚广但不符合事实的说法。人们说添姆·伯纳斯李发明 HTML 是为了发表物理论文。真是这样吗?这无所谓,反正这个传说至今还起着作用。你尽可以开发一个又一个的线上软件(web app),但万维网主要还是一个用来发表文档的地方。

网上一直有各种各样的「数字化」计划,把各种各样的古旧内容数字化:专利申请文件、书、相片、所有一切。除了相片大概可以以 JPEG 或 TIFF 格式很好地存活下去(残障人士能否访问的问题暂且不提),以上古旧内容大都需要进行「语义标注」才能让电脑读懂。作家面对一张白纸时有着彻底的作为作者的自由,但这种自由在面对 HTML 悲剧的语义能力时很可能会尸骨无存。将文档数字化的迷狂──真的是一种迷狂──迎头撞上了 HTML 的语义标签。

某些文档是无法用 HTML 发表的。在很多情况下,我们应该直接放弃这种尝试。还有一些情况则需要彻底改变文档的样式与结构。理想的状态是大家从现在开始使用定制的 XML 文档类型,或许 XML 最终能成为一种可行的格式。

剧本的问题

把打印出来的文档转移到网上是个难题。电影剧本就是个好例子,这在某些圈子里已经成为传奇了。

想写剧本的人很多,大部分人的下场是一样的:找不到人帮她们把剧本拍成电影,更没人发行。而她们无一例外都要学习那种流传了几个世代的剧本写作「风格」。

《虎胆龙威 2》剧本的一页

《虎胆龙威 2》剧本的一页

剧本的格式源于打字机时代,它的设计是为了让一页纸(在美国被称为「美国信纸尺寸」)的长度刚好约等于一分钟的电影。大部分商业电影是两个小时,所以一份典型的好莱坞剧本的长度会在 118 到 122 页。

剧本的字体排印很糟;旧式打字机上老掉牙的字体被映射为今天我们看到的扁长的 Courier。但从工程师的角度看,电影剧本作为文档是非常出色的。

  • 剧本的文字缩进可以形成一门学科了。在剧本里,文字极少「居中」(好像从来没有过?);所有缩进都是以 tab 为单位──这是一个被 CSS 彻底铲除了的集体记忆。(在 CSS3 里可以用 ch 这一单位来设置左边界,但没人这么幹。)
  • 这些细致的缩进设置让人们能够轻松地速读一页剧本。全大写的单词有其语义上的意义,可以帮助我们扫视内容。CSS 为其赋予了「text-transform」这种机械化的名称,显然不合适。而现在人们又想将这种格式完整地转移到网页上。这是行不通的。
  • 网「页」只是一种比喻,它和上面说过的「跟电影时间对应的一页纸」这个单位没有关系。(这已经意味着剧本上的许多页眉和页脚必须消失了,因为网页其实只有一「页」。)
  • 没人会指望线上版的剧本能具备纸版的功能:发给人去读,被买下,最终拍成电影。这些都发生在纸的世界里,而不是 Firefox 里。
  • HTML 本质上是不可扩展的。虽然后来有了「可扩展的 HTML」(XHTML),但其实它也一直没有被扩展。于是以下众所周知的事实还是没法改变:HTML 的标签种类不足以应付剧本的语义需求。在剧本里,几乎所有东西都需要单独的标签。
    • 对话似乎问题不大,但对话中往往穿插着屏幕说明和对演员的指示。在 HTML 里,两者都会被标为段落(p),尽管它们的功能以及应该呈现的样式都很不同。
    • 各种各样的标题怎么办?对话人的名字、时间、语气(这些通常叫 slug 或 slugline)。HTML 里的标题标签「很多了」──一共有六个──但它们是按层级而非功能排列的。用类(class)来区分真的够了吗?「h2 class="slugline"」、「h2 class="charactername"」这样就可以了?不,不可以。剧本的标题和 HTML 的标题是两种东西。
  • 电影圈里的人本来就不需要 HTML,她们有可用的剧本格式。
    1. 其中之一是专有格式 Final Draft,它在剧本界的地位等同于 Word 在办公室中的地位。开源狂热分子会觉得这是个抨击专有格式的良机,但编剧可没空关心开源问题。不管怎么说,Final Draft 8 的默认文档格式已经是 XML 了。
    2. 另外一个选择是 PDF。电影圈不用关心文档能否让残障人士方便地访问的问题,因为就算没有增加这方面的功能的 PDF 作为剧本格式也足够了。你也不需要加了标签的 PDF,它的语义能力还是不足以应付剧本。(理论上你可以自己写 PDF 标签,反正那只是 XML 而已。)

    将剧本搬上网的壮举让我们想起其它的「类型错误」(Martin Amis 语)。我们逐渐发现电子商务并不是说要在网上建一个「商场」,让人们可以虚拟地「漫步其中」。「杂志」和「产品目录」并不是一页一页的供人们翻阅(而且还加了音效)、折角。「网站」的样子跟杂志排版并不相同,它没有多栏文字和加了箭头的图片说明文字。

    这一壮举让人想起早年的电视。传统智慧告诉我们,早期的电视节目看上去更像是用摄像机录制的舞台剧。把剧本搬到网上这件事的成果还远不如录下来的舞台剧。

    我们从中应该能学到点什么。

    必须承认,有人尝试过将网页做到跟打印版的剧本一模一样。这方面的明星是编剧+资深博客约翰·奥古司特(John August)。奥古司特写了一个叫 Scrippets 的插件,可以用在 WordPress、Blogger 等系统上,它已经最大限度地做到了「点石成金」。奥古司特设想了几种用例,其中之一是如何让读者通过 RSS 阅读器能看到完美的剧本格式。要做到这点,唯一的办法是使用包含样式的 HTML 和 inline 样式。自然,这些做法在前端开发里早已过时。

    奥古司特是这样描述 Scrippets 的:「Scrippets 可以让你在博客中以文字区块的形式加入『具有漂亮格式的剧本』。」这句话其实是对问题本身的描述,而不是解决方案。他试图继续依赖「页」这一比喻,试图复制打字机的字体效果,试图重现「一分钟一页」的版式,这些尝试都失败了。剧本格式对于纸张来说是「漂亮」的,对于网页则是错误的,哪怕只是「一小块一小块」的剧本内容。

    更糟的是,Scrippets 忽略了 HTML 语义对标记剧本的贡献(无论这贡献有多小)。所有元素都被标为段落,但它们并不都是段落。这比为 h2 标签加上一堆类名称更要不得。如此种种,都是试图在网页上标记剧本语义格式这一惨烈斗争中的例子。

    剧本的解决方案

    要把剧本搬上网,需要在样式上动手术。这不是没有先例的:由剧本改编的书已经拥有了一个健康的市场。事实上,「拍摄用剧本」在美国是一个商标(由 Newmarket Press 拥有),用来指根据电影剧本改编的一系列书籍。

    • 某些书只是把打字机打出来的剧本的幅面缩小了。你在读这种书的时候可能感觉自己很专业,但事实上你被欺骗了:你花了钱,但读到的只是作家在打字机上打出来的手稿。扁长的 Courier 字体缩小了之后更难看。
    • 另外一些书则是完全重新设计了打字机打出来的剧本,让它成为图书出版领域的「原生」(native)格式。通常的做法是把对话人的名字和她们说的话写在同一行,文字两边加上书籍里常见的边距,并大幅缩减垂直的白空间。打字机打出的剧本在它自己的语境里阅读是很舒服的,而剧本书在它自己的语境里阅读同样很舒服。(重新排过版的剧本有时也用来当作语言教学的辅助材料。)

    因此,如果我们要把剧本搬上网,你必须放弃「复制剧本格式」这一想法。你必须做出一套属于网页的设计。你要考虑到上面说过的几点:HTML 的语义标签不够丰富,网页并不是真正的「页」,或者说,一共只有一页。

    • 你可以用 HTML 的定义列表(dl)来标注对话。这在 W3C 的 HTML 里是明确允许的,但在 Ian Hickson 的 HTML5 里是明确禁止的。(那么在 HTML5 里就用 dialog 好了,虽然其实 dialog 的子标签 dtdd 同样也是 dl 的子标签。)
    • 你可以用 pre 标签去实现假的缩进和换行(但没法假装把整本剧本切分成页面)。
    • 你也可以无视缩进,乾脆直接用居中。
    • 你可以在一定程度上用表格来排剧本。
    • 你也可以不去想太多语义方面的事情。角色名字和对话加粗写在同一行,HTML 标题标签能用就用。

    其他搬上网时需要转换的印刷格式

    • 版权栏。这是指列明杂志和报纸里谁负责什么工作的那一栏。它的语义其实挺复杂的,因为每人的职位或是所在部门似乎都要用一个标题标签来标记。但如果你用 HTML 的 h1h6 来标记版权栏,就会「污染」到周围的内容。
    • 图示和边栏。这些结构对于杂志、报纸和非虚构类的书是常见的,但每当你想把它们纳入一个有效的文档树结构时就会出现严重问题。(你希望读者在整个标签流的什么位置开始读图示和边栏?)
    • 脚注。HTML 里没有包含脚注这一结构(带标签的 PDF 里有)。工程师们用了各种各样的歪招,包括用 JavaScript 来实现显示 / 隐藏的小挂件,以及各种乱七八糟的链接和反向链接。对于文学爱好者而言,HTML 没有脚注令到已故的大卫·福斯特·沃雷斯(David Foster Wallace)的作品基本无法在网上阅读(尤其是他的脚注中的脚注)。
    • 含有大量注释的图片(Charticle)。通常人们认为这起源于《Spy》杂志,它跟 Flickr 上那些充满注释的照片在功能上一样。但 HTML 也没有针对这种情况的标签。
    • 数学和科学内容。没错,又是老问题。别提 MathML,网上几乎没人实际在用它,因为写起来太难。物理学家雅克·迪斯勒(Jacques Distler)是极少数在网页上用 MathML 的人之一。

    怎么办?

    了解了上述情况之后,我们接下来会怎么做?我的预测是:什么都不会做。大家还会继续试图复制剧本格式,并用奥古司特那种水平的代码(在 HTML 里直接写样式)。但我们还是有些别的法子。

    剧本的例子不是独立的,用 XML 来标记文学作品一直很难,剧本只是其中一个变种。多年来人们一直在尝试,但目前为止几乎没有哪个 DTD 获得了认可。大家只想继续用 HTML 来标记所有东西。搞不清状况的作家更是把所有东西标记为段落,或 div

    有人说 HTML 是万维网上的通用语,大家可能太把这话当真了。HTML 源自 SGML,XHTML 是把 XML 这种旧酒装进了新瓶子。这里就已经有四种标记语言了,但人人都表现得好像只有 HTML 一种似的。(大部分情况下浏览器会把 XHTML 当成末尾加了斜杠的 HTML 对待。)连电子书都是用 HTML 标记的──EPUB 格式其实只是被包裹在容器里的 XHTML 1.1──但这让 EPUB 变得既是 HTML 又是 XML。既然这样可以接受,那么其他 XML 的变种也可以咯?

    浏览器无法显示格式正确的 XML 的时代早已过去。今天的浏览器们完全可以做到这点。各种各样的文学文档和文献在网上实现已经有了技术上的可行性。但由于它们沉寂了太久,如今似乎没人愿意去理会它们。毕竟不都说 HTML5 才是未来吗?就像过去我们都认为 XHTML2 是未来一样。

    结论

    万维网无疑是伟大的,但它的语言无法表达很多东西,包括一些人类已经在别处顺利表达的东西。我们应该接受这点:某些文档在搬上网时,格式必须重新设计──至少,如果你的目标是用 HTML 标记它们的话,就一定要重新设计。如果你想为网页文档赋予打印文档的语义丰富度,在今时今日,XML 已是可行的方案。

    (Translated with the permission of A List Apart Magazine and the author.)

    两年前乔·克拉克(Joe Clark)发表在 A List Apart 的文章。原文在此。──编者

    参考文献编辑本段回目录

    http://apple4.us/2011/06/unwebbable-joe-clark-chinese.html


    →如果您认为本词条还有待完善,请 编辑词条

    词条内容仅供参考,如果您需要解决具体问题
    (尤其在法律、医学等领域),建议您咨询相关领域专业人士。
    0

    标签: 无法上网的文档

    收藏到: Favorites  

    同义词: 暂无同义词

    关于本词条的评论 (共0条)发表评论>>

    对词条发表评论

    评论长度最大为200个字符。