達而録

ある中国古典研究者が忘れたくないことを書くブログ。毎週火曜日更新。

『人文学のためのテキストデータ構築入門』

 いま、人文情報学研究所監修の『人文学のためのテキストデータ構築入門』をざっくり読んでいます。まだ詳しく理解したとは言い難いですが、もともとhtmlは分かるので、大雑把な仕組みは何となく分かりました。(一から構築するとか、データを見やすい形に出力するとか、高度なことは全然できませんが。)

 ひとまず、習うより慣れろということで、TEI研究会 - TEIviewer4EAJで公開されている事例や、『人文学のためのテキストデータ構築入門』第四部第七章「大正新脩大蔵経TEI化作業の中国古典籍への援用」(片倉峻平)を参考にして、『礼記正義』の経文が始まる部分(つまり序文や題疏は飛ばした部分)のごく一部をTEIの形式で書いてみました。以下からxmlファイルをダウンロードできます。

 GitHub - keta-tajiri/TEI

 これをダウンロードして、TEI研究会で公開されている「TEI古典籍ビューワ」に読み込ませると、以下の画像のように使いやすい形で出力されます。一つ目は音注の対照関係、二つ目は人名を示しているところです。ほか、書名も参照できるようにしています。

 全面的な整理ができれば、ここから「〇字の音注の一覧を出す」「『△△』という本の引用箇所を抜き出す」といったことができるようになります。

 今回、文字は中央研究院のデータをそのまま使っています。おそらく、本来的にはヘッダーで「このデータはもともと○○から来ていて……」みたいなテキスト情報の明示が必要なのですが、記述方法がよく分からなかったので省略しています。

 また、このデータは阮元本が底本なので、テキスト情報を最大限再現することが可能なTEIの特性を活かすなら、書誌情報を入れたり、阮元本と同様の位置で改行を入れたりして、きっちり対照できるようにした方がよいのでしょうが、今回はしてないです。句読も省略しています。物理構造ではなく、論理構造だけをマークアップした一例として見てください。

 TEIでは校勘情報も細かく入れることができます(つまり八行本との校勘結果などを入れられるわけです)。しかもこのビューワだと見やすい形で出力してくれるのですが、これも今回はやっていません。

 さて、少し作業してみて実感しましたが、『人文学のためのテキストデータ構築入門』にも書いてある通り、どのぐらいの規模でやるか、何を目標としてやるか、といった方針を最初にかっちり決めておく必要がありますね。また、いきなりTEIの形式にするのではなく、一旦簡単な記号で置き換えて入力し、最後に一括でxmlのタグ付けをする形式にした方が見落としが少なくなりそうです。

 一人で作業するのなら、『礼記正義』のような分量のあるものを全面整理する方向ではなくて、短く重要なものを、高い品質で、綿密な注釈をつける方向を目指す方が良さそうとも感じました。何かいい題材がないか考えてみます。

 編集の際には、ここに書いてある方法を参考にして、VSCodeで編集しました。最後の日本語化まではできていないのですが。→フリーソフトで快適TEI/XML(Oxygenを使わない道) - digitalnagasakiのブログ

(棋客)