XHTMLからHTMLに戻さうかと思ってゐる - 雑念雑記はてな出張所

text/htmlとしてのみ送信されるXHTMLは、ただの不正なHTML - 木俣ロバート久の覚書 (はてな版)及びその関連の議論を読んで、久しぶりにWeb技術の話をしようと思った*1

現在高天原のHTML文書はほぼ全てXHTML1.0で記述されてゐる。本来MIME-TYPEは"application/xhtml + xml"辺りで送信するべきだが、IEの仕様の関係上"text/html"で送信してゐる。仕様上は不正といってよい。

今までは、IEの不正挙動に憤り、正式に対応するまでコンテントネゴシエーション（動的振り分け）で対処してゐたのだが、最近はむしろデータ側をHTMLに戻す方が良いのではないかと思ふやうになった。

XHTML1.xが勧告され、XMLといふ規格が世に認知されるやうになった頃*2、私は、この先HTMLは『プラットフォームを提供するXML』（土台的なXML）と『テキストを表現するXHTML』に分離するものだと思ってゐた。さうすることで、将来新しい技術が開発・導入されても、テキストの表現としてのXHTMLは変わらないまま規格が保たれ、保存性が向上すると考へてゐたのだ*3

だが、XHTML2.0やHTML5の案を見ても、さういふ気配は欠片も見当たらない。むしろW3Cでは(X)HTMLに機能を拡張していく方向で議論が進んでをり、(X)HTML自体をWebの標準的なプラットフォームとして、派生的な技術も積極的に取り入れる形を目指してゐるやうに見える*4

確かにそれは、導入・普及のしやすさとしては最善だらう。しかし『構造と内容の分離』といふ観点から見ると、構造側の仕様変更に内容側の仕様が振り回され、直接的な互換性が失われてしまふのではないかといふ危惧を覚えずにはゐられない。

もともと文章はそれすべてが文章として完結してゐるのだから、それを『データ』として切り離して捉へようとすると、最悪意味が通じなくなってしまふ。せいぜい「文中の見出しやリンクを抽出する」といった語句的なアプローチであり、「html/body/section/section/pを抽出する」みたいな構造も含めたアドレス的なアプローチはしないし、しても意味が無い*5　*6 。ゆゑに、構造を定義する仕様と内容を定義する仕様が同一である必要は無いと思ふのである*7 。もっといへば、内容を表現する言語はXMLである必要すらない。

さう考へた時、最も文章の表現として望ましい言語は、文章を表現する規則を厳密に定めたISO-HTMLなのではないかと、なんだか原点回帰のやうな結論に至ってしまった。プラットフォームとしてのXHTMLは、まだ"Application"を冠するほど完成されてゐないのではないか。それが開発され普及するまでは、XHTMLである必要は無く、互換性の高いHTMLで十分ではないか、さう思ふのである。

ただ、最近まともに議論を追ひかけてゐないので、以上の指摘は的外れかもしれない。現在高天原のほとんど文章は自分が定義した軽量マーク付け言語で記述し、そこから変換して出力してゐるから、さしあたって切り替へに手間はかからない。特に異論が出ないやうなら、週末くらゐに戻すか。って、もう週末か。

*1:HTML議論リンク集のリンク集 - 徒委記にはまだ登録されてゐないのね。……あ、さう言へば前になんかの議論集の作成を頼まれた気がする。もう忘れたー。

*2:ちなみに、私はXMLマスター（BASIC）といふ資格を持ってゐる。当時Web技術でよく議論してゐた方たちと一緒に『バナナを喰ひながら』取りに行ったのも懐かしい思ひ出。

*3:だから、テキストをより簡易にマーク付けするための言語をいろいろ考へたりもした。今にしてみればそれは本末転倒な話だが、当時は大真面目だったらしい。

*4:この辺りは以前徳保氏が指摘したことがある。

*5:いちsectionがほぼ完全に独立してゐるブログの構造はまた別の話。

*6:遠い将来にはセマンティック（意味的）ウェブの時代が来て、さういふアプローチに何らかの価値が生まれるのかもしれない。ただ、今の私には少なくとも想像がつかない。RSSやFOAFをRDF的に見るのは面白い試みだとは思ふが。

*7:第一データの構造自体が規格上曖昧であり、人やプログラムによって出力結果は千差万別となってゐる。こんなデータをどう活用しろといふのか。輝夜姫もびっくりの難題である。一方自分だけで扱ふのであれば、別にXML的でなくとももっと簡単な処理方法はいくらでもある。