2015-04-20

SKOS入門 - SKOS Simple Knowledge Organization System Primer

W3Cワーキンググループ・ノート 2009年8月18日
原文：http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/
和訳：http://www.asahi-net.or.jp/~ax2s-kmtn/internet/skos/note-skos-primer-20090818.html

★メモ

1 はじめに
- 本文書は、SKOS（Simple Knowledge Organization System）に関する規範的なリファレンスを提供する「SKOSリファレンス」*1の手引きである。
- SKOSは、シソーラス、分類体系、件名標目表などの知識組織化体系（KOS）を表現するためのRDF語彙である。相互運用性を確保するため、単純化されたモデルとなっている。

2 SKOS必須事項
- - ◆KOSを表現する際に最も一般的に用いられる語彙を紹介する。
  - ◆SKOSは、概念体系にKOS情報を含ませることについては限定的にしかサポートしていない。
- 2.1 概念
  - クラスskos:Concept：ある資源が概念であると言明できる。URI *2により概念を一意に特定し、プロパティrdf:typeを用いて、URIが示す資源がタイプskos:Conceptに属すことを示す。
- 2.2 ラベル
  - プロパティskos:prefLabel、skos:altLabel、skos:hiddenLabel：ラベル付けする。同じリテラルに対してこれらのプロパティを重複して用いることはできない。
  - skos:prefLabel：優先字句ラベル。言語タグによって特定の言語に範囲を限定することができる。ただし、このプロパティは、言語タグ1つにつき1つしか持てないことに留意する。
  - skos:altLabel：代替字句ラベル。同義語、類義語、略語、頭文字語などに用いることができる。
  - skos:hiddenLabel：非表示字句ラベル。スペルミスを別途含みたいときなどに用いる。
- 2.3 意味関係
  - プロパティskos:broader、skos:narrower、skos:related
  - skos:broader：ある概念が別の概念より広義（より一般的）であると言明するために用いる。
  - skos:narrower：ある概念が別の概念より狭義（より具体的）であると言明するために用いる。
  - skos:broaderとskos:narrowerは、推移的とは定めていない。（非推移的という意味ではない。）インスタンス―クラス関係や、部分―全体関係などの階層関係の形式の区別もカバーしない。
  - skos:related：連合関係を言明するために用いる。推移的とは定めていない。
- 2.4 記録ノート
  - プロパティskos:note：概念体系を利用する人間向けの注記。skos:scopeNote（概念の使い方の制限）、skos:definition（概念が意図する意味の説明）、skos:example（概念の使用例の提供）、skos:historyNote（概念の意味や形式に関する重要な変更点の記録）がある。
  - KOSの管理者や編集者向けに、skos:editorialNote（編集作業中、将来変更可能性がある、など、維持管理の補助となる情報）、skos:changeNote（概念に関する細かな変更点の記録）がある。
- 2.5 概念体系
  - クラスskos:ConceptScheme：概念体系（分類表、シソーラスなど）を表す。
  - プロパティskos:inScheme：その概念を含んでいる概念体系にリンクする。
  - プロパティskos:hasTopConcept：概念体系を、その中で最も一般的な概念にリンクする。

3 セマンティック・ウェブにおけるKOSのネットワーク化
- - ◆既存の概念間の意味関係を成立させるための概念体系のリンクに用いられる語彙を紹介する。
- 3.1 概念体系のマッピング
  - プロパティskos:closeMatch：2つの概念は取り替えて使えるほど似ていることを示す。しかし推移的とは定義されておらず、2つの体系以外に広がることを防いでいる。
  - プロパティskos:exactMatch：2つの概念は取り替えて使えるほど似ていることを示す。skos:closeMatchより高い近似性を意味するため、より広い体系にまたがって利用できる。
  - 2.3項の意味関係の類似性は、プロパティskos:broadMatch、skos:narrowMatch、skos:relatedMatchを用いて指定することもできる。
- 3.2 概念体系の再利用と拡張
  - プロパティskos:inScheme：既存の概念を再利用するために用いる。
- 3.3 主題のインデキシングとSKOS
  - 任意の資源をskos:Conceptに関連づけたい場合は、（SKOSにはないため）他の語彙を使用する。

4 高度なSKOS: KOSがシンプルでなくなった場合
- - ◆高度な表現を必要とする場合について
- 4.1 概念の集合
  - ラベル付き集合：クラスskos:Collectionを用いて概念集合構造をモデル化する。このクラスのインスタンスは、プロパティskos:memberを用いて記述する。
  - 順序付き集合：クラスskos:OrderedCollectionとプロパティskos:memberListを用いて集合内の概念の順序を記述する。
  - 集合によって、アプリケーションが操作しなければならない表現は複雑になるものの、意味の正確さの観点から、集合を用いることは有益である。
- 4.2 高度なドキュメンテーション機能
  - SKOSでは概念に様々な注釈をつけることができる。目的語の位置で使用できる資源の値域は、SKOSリファレンスでは制限していない。
  - RDF リテラルとしての記述：シンプルなRDF リテラルを目的語とする。
  - 関連資源記述としての記述：非リテラル RDFノードを目的語とする。作成者や作成日など。
  - ドキュメントの参照としての記述：ドキュメントのURIを目的語とする。
- 4.3 ラベル間の関係
  - SKOSの字句ラベル付けプロパティは、RDF リテラルを目的語に取るため、ラベル間の関係を示す（ラベルを主語として情報を付与する）ことができない。そこでSKOSではラベルをRDF資源として扱えるよう拡張したSKOS-XLで、クラスskosxl:Labelを導入している。
  - skosxl:Labelインスタンスは、プロパティskosxl:prefLabel、skosxl:altLabel、skosxl:hiddenLabelを用いて概念を関係づけることができる。また、skosxl:labelRelationでリンクできる。
- 4.4 概念結合
  - KOSのインデキシングには概念の結合が用いられることが多いが、SKOSには、結合した概念を表現する方法がない。この課題については先送りにし、拡張パターンを有機的に使えるようにすることを決定した。
- 4.5 推移的な階層
  - 推移的であることを示す必要がある場合のために、プロパティskos:broaderTransitiveとskos:narrowerTransitiveがある。skos:broaderTransitiveはskos:broaderのスーパープロパティである。
- 4.6 表記法
  - 概念への主なアクセス手段として用いられている見出しなどの表記法を表すことができる。
  - プロパティskos:notationを用いて概念にRDF型付きリテラルを付与することができる。
  - 言語に依存しないラベルの場合は、skos:prefLabelなどのラベル付けプロパティを用いる。
- 4.7 SKOSモデルの専門化について
  - SKOSは、異なるKOSモデルを共通化させるものとして機能することを目指している。より細かな、特定のコミュニティのニーズに合うような拡張が必要な場合は、既存のSKOS語彙をより特定化することで対応できる。

5 SKOSとその他のモデル化アプローチとの組み合わせ
- - ◆他のモデル化アプローチ、特にOWLと連携させて用いることをアプリケーションが求める場合に生じる問題を扱う。
- 5.1 SKOS以外でのラベルの使用
  - 型がskos:Conceptではない資源へのラベル付けにSKOSラベル付けプロパティが使える。
- 5.2 SKOSの概念とOWLのクラス
  - skos:ConceptはOWLのクラスなので、そのインスタンスである概念は、OWLの個体である。
  - SKOSの概念をOWLのクラスとして扱えるべきか否かは、SKOSでは決めていない。
  - OWL-DLの制限により、SKOSの概念をOWLのクラスとして扱うことはできない。
  - 進行中のOWLの改定での何らかのメタモデル化により、SKOSの概念をOWLのクラスとして扱えるようになるかもしれない。
- 5.3 SKOS、RDFデータセットよび情報包含
  - SKOSのステートメントの来歴や所有権に関する情報は、現時点ではSKOSの範囲外である。
  - 名前付きグラフやRDFデータセットの使用などの解決策が提案されている。

*1:http://www.asahi-net.or.jp/~ax2s-kmtn/internet/skos/REC-skos-reference-20090818.html

*2:ウェブ上での参照解決を可能にするHTTP URIの使用を推奨する。

2015-04-08

緑川信之『本を分類する』

http://id.ndl.go.jp/bib/000002549112
緑川信之著『本を分類する』勁草書房、1996年10月
★感想メモ

理論としての説明が実践を想定した具体例とともにていねいに書かれている。
あらゆる分野の知を対象とした分類体系を作るってほんと大変なことだ…と気が遠くなるような気持ちになった。

★メモ

p.7: 本書の最終目標は個別の分類法の紹介ではなく、分類とは何か、どうすれば適切な分類ができるか、を考えるための基礎を提供すること
p.21-22: きわめて例外的な生物のために区分肢を用意しておくのは実用的ではない
p.22: 理論的には区分の原則は守られるべきであるが、実用上はむしろ区分の原則を破っても単純な区分にした方がよい場合もある。
p.23: 区分原理を独立のものとして掛け合わせると多次元構造になる。（略）多次元構造の場合はそれぞれの区分原理が独立なので適用順序は問題にならない。
p.201: DDCの「記号の保全（integrity of numbers）方針」：細目をつけ加えることはあるが、分類体系全体の変更は行わないという方針
p.202: DDCの「フェニックス（phoenix）」避けがたい必要性と要求が生じた部分については前の版をほとんど考慮に入れずに徹底的に改訂することを承認するという方針。第20版で「全面改訂（complete revision）」と名称が変更された。
p.203: 書架分類は文献を書架上に配列するための分類で、書誌分類は書誌、目録、索引、抄録などに収録するための分類

索引：探索の手掛かりを増やす、関連項目を集める。

DDC、UDC、NDC、CC
- DDCを基に、UDCとNDCが独自展開。
- DDC、LCC、NDCは階層構造。
- コロンは多次元構造。ランガナータンによる。ほとんど使われていないが理論的意義がある。
- UDCは階層構造と多次元の併用。
- LCCとNDCは配架目的。
- UDCは細分化された領域を扱う文献にも適用でき、書誌・索引DBにも使える。

DDC【デューイ十進分類法（Dewey Decimal Classification）】
- - 構造：階層構造
  - 配列：ハリスの分類を基礎に主類を配列している。
  - 表示：合成表示
  - 記号：純粋記号法で十進のアラビア数字
  - 索引：相関索引

- 本表：Schedules
- 補助表：Tables
- 相関索引：Relative index　DDCの索引言葉の音順で探索できる。学問分野（discipline）に基づく分類体系と主題（subject）を結び付けるから「相関」
- 利用の手引：Manual
- 主類：main classes　0-9の区分肢
- 綱：divisions　主類を区分した区分肢
- 目：sections　綱を区分した区分肢
- 細目：subsections　目以降の区分肢
- 補助表1：共通細目　Standard subdivisions
- 補助表2：地理・時代　Geographic areas, historical periods, persons
- 補助表3：文学形式細目　Subdivisions for the arts, for individual literatures, for specific literary forms
- 補助表4：言語細目　Subdivisions of individual
- 補助表5：民族・人種・国民集団　Recial, ethnic, national groups
- 補助表6：言語　Languages
- 補助表7：人物　Groups of persons
- 純粋記号法　pure notation　1種類の記号体系だけを用いる方法（DDCはアラビア数字のみ）
- 包括記号：comprehensive number
- 学際記号：interdisciplinary number
- 優先表：table of preference　複数の主題を扱っている文献をどこに位置づけるか指示する手段

- 本来は1桁や2桁の記号でもダミーの0を補って3桁にする。
- p.67: ここで注意しなければならないのは、0の数である。すでに指摘したように、530（物理学）の末尾の0はダミーで、実際は53の意味である。したがって、もし図2-17のように指示がでていなかったとすると、合成は次のようになる（530.7）しかし、530.7はすでに本表中に別の項目として使われている。つまり、530.7は物理学で用いられる装置のことであり、これを物理学教育とすることはできない（合成された記号よりも本表にあるが優先される）。そこで、図2-17のように指示を出して0をもうひとつ増やし、530.7としているのである。この0がいくつ必要かは合成する場所による。たとえば、026を見ると、補助表1の使い方が指示されている。この場合は、本表の基本記号は026.00で、たとえば、これに補助表1の03を合成すると026.0003（特定主題図書館の事典）が得られる。
  - - 337　国際経済
    - 337.4　ヨーロッパの経済政策
    - 337.4052　日本に対するヨーロッパの経済政策
    - 026.61　医学図書館
    - 026.78　音楽図書館
- 記号の桁が短くて済むよう、階層構造をときどき破っている。

LCC【米国議会図書館分類法（Library of Congress Classification）】
- - 構造：階層構造
  - 配列：カッターの展開分類法（Expansive Classification: EC）を基礎に配列している。
  - 表示：合成表示
  - 記号：混合記号法でアルファベットと数字
  - 索引：主類ごとのみ（全体の索引はない）

- 主類：main class　知識の全分野を20に区分。
- 第2次区分以降の区分肢の配列はマーテルの7ポイント（Martel's seven points）の原則に依拠している。
- 合成には、カッター記号、内部表、補助表、本表の別の部分、が用いられる。
  - - HD2336（各国の家内産業）＋.J3（日本）＝HD2336.J3（日本の家内産業）
    - HD2356（各国の巨大産業）＋.x2（.xに各国のカッター記号を代入。カナダは.C2→.C22でカナダの一地方）＝HD2356.C22（カナダの一地方の巨大産業）
    - HD2356.C22＋M6（モントリオールのカッター記号）＝HD2356.C22M6（モントリオールの巨大産業）
- 混合記号法：mixed notation　複数種類の記号体系を用いる方法
- 万進法。LCCでは1-9999の数字がそれぞれ意味を持つ。
- ただし、小数点以下の数字は十進法。
- 階層構造の表現は、レイアウトで示している。

CC【コロン分類法（Colon Classification）】
- - 構造：多次元構造（だが、各次元の中は階層構造）
  - 配列：具体性減少の原則による
  - 表示：合成表示
  - 記号：混合記号法でアルファベット、ギリシャ文字、数字
  - 索引：アルファベット順に基本主題、基本主題のもとでのファセット、分類記号を示す

- ファセット：Facet　基本的な区分原理、またはそれに基づく区分肢の全体
- アイソレイト・フォーカス：Isolate Focus　基本主題以外のファセット
- 基本主題：Basic Subjects
- パーソナリティ：Personality Isolates　主語みたいな
- マター：Matter Isolates　目的語みたいな
- エネルギー：Energy Isolates　述語、動詞、みたいな
- 空間：Space Isolates
- 時間：Time Isolates
- 言語：Language Isolates
- 前置共通細目：Anteriorising Common Isolates
- 後置共通細目：Posteriorising Common Isolates
- ファセット式：facet formula　各基本主題に固有。用いるファセッとと連結方法を定めた式。
- レベル：Level　階層関係を表現
- ラウンド：Round　同じ階層で同じ種類のファセットが出てきたときに区別するための手段。
- ファセット内関係：Intra-Facet Relation　ファセット内の複数の区分肢の関係
- アレイ内関係：Intra-Array Relation　ファセット内関係の中でも、ファセット内の階層構造の第2次区分以降において同じ上位概念ンをもつ区分肢どうしの関係
- フェイズ関係：Phase Relation　基本主題ファセットにおける複数の区分肢の関係
- 一般的関係：General
- 偏重関係：Bias
- 比較関係：Comparison
- 差異関係：Difference
- 影響関係：Influencing

- - - 「市立図書館における参考図書の分類」
      - 基本主題：図書館学　→ファセット式は　2[P] ;[M] :[E][2P]
      - パーソナリティ（,[P]）：市立図書館　→22　における
      - マター（;[M]）：参考図書　→47　の
      - エネルギー（:[E]）：分類　→51
      - 第2レベルのパーソナリティ（[2P]）：（当該の概念が含まれていないので区分は行わない）
      - →222 ;47 :51

- - - 「図書館のレファレンスサービス」
      - 基本主題：図書館学　→2　→ファセット式は　2[P] ;[M] :[E][2P]
      - パーソナリティ（,[P]）：（図書館の種類が限定されていないので区分は行わない）
      - マター（;[M]）：（当該の概念が含まれていないので区分は行わない）
      - エネルギー（:[E]）：レファレンスサービス　→7
      - 第2レベルのパーソナリティ（[2P]）：（当該の概念が含まれていないので区分は行わない）
      - →2 :7

- - - 「21世紀の日本の大学図書館」
      - 基本主題：図書館学　→2　→ファセット式は　2[P] ;[M] :[E][2P]
      - パーソナリティ（,[P]）：大学図書館　→34
      - マター（;[M]）：（当該の概念が含まれていないので区分は行わない）
      - エネルギー（:[E]）：（当該の概念が含まれていないので区分は行わない）
      - 第2レベルのパーソナリティ（[2P]）：（当該の概念が含まれていないので区分は行わない）
      - 空間（.[S]）：日本　→42
      - 時間（'[T]）：21世紀　→P
      - →234. 42 'P

- 配列は、基本主題、具体的なファセット、抽象的なファセット、の順
- 各ファセットに対応する連結記号を定め、原則的な合成方法も指定。
- 複合主題の位置づけが容易で理論的に重要な分類法だが、合成規則が複雑すぎて実用性に欠ける

UDC【国際十進分類法（Universal Decimal Classification）】
- - 構造：階層構造と多次元構造の併用
  - 配列：主標数のあとに共通補助標数を合成する、複数の共通補助標数があるときは言語の共通補助標数を最後に合成する
  - 表示：合成表示
  - 記号：純粋記号法でアラビア数字
  - 索引：日本語とアルファベットでそれぞれ用意されている

- 標数、分類記号：Class number
- 共通補助標数：DDCの補助表に相当するもの。主標数のどこにでも適用できる。
- 独立性共通補助標数：主標数と合成されなくても意味を持つ共通補助標数
- 従属性共通補助標数：主標数から独立しては使えない共通補助標数
- 固有補助標数：主標数を階層構造的に細分するために使う。特定の主標数にのみ適用できる。

- - - 「英語で書かれた日本の物理学に関する辞典」
      - 物理学　→学問分野　→53
      - 日本　→場所　→(520)
      - 辞典　→形式　→(03)
      - 英語　→言語　→=111
      - → 53 (520) (03) =111

- - - 「図書館学のための数学」
      - 主標数　02（図書館・図書館学）
      - 主標数　51（数学）
      - → 02 :51

- - - 「日本とアメリカの物理学」
      - 共通補助標数　520（日本）
      - 共通補助標数　73（アメリカ）
      - 主標数　53（物理学）
      - → 53 (520+73)

- - - 「英語で書かれた19世紀イギリスの天文学に関する書誌」
      - 主標数　52（天文学）
      - 共通補助標数e　(410)　（イギリス）
      - 共通補助標数g　"18"　（19世紀）
      - 共通補助標数d　(01)　（書誌）
      - 共通補助標数c　=111　（英語）
      - →　52(410)"18"(01)=111

- - - 「前半に日本の天文学、後半にアメリカの天文学が書かれている教科書」
      - 52 (520+73) (075.8)
      - ↑　↑　　↑　　↑
      - ↑　日本　↑　大学教科書
      - 天文学　アメリカ

- - - 「日本とアメリカの天文学を比較した教科書）
      - 52 (520 : 73) (075.8)

- 1桁や2桁の記号は、ダミーの0を補うことなくそのまま用いる。
- UDCでは、ひとつの主題に対してひとつの記号を完全に一義的に決定することはできない。
- 合成は、多次元構造的な合成表示と階層構造的な合成表示が行われている。
- 多次元構造的な合成は、主標数と各独立性共通補助標数の間での合成と、主標数どうし、または同じ種類の共通補助標数どうしの合成がある。
- 階層構造的な合成には、主標数と従属性共通補助標数の合成、主標数と固有補助標数の合成、平行細分、の３つの方法がある。
- 固有補助標数は、主標数の項目ごとに特定の（固有の）記号が定められている。テンゼロ（.0）で始まるテンゼロ固有補助標数、ハイフン（-）の次にゼロでない数字で始まるハイフン固有補助標数、アポストロフィ（'）に続けるアポストロフィ固有補助標数の3種類がある。
- 平行細分は、「〜と同様に細分」という指示に基づく方法。

NDC【日本十進分類法（Nippon Decimal Classification）】
- - 構造：階層構造（DDCに基づいている）
  - 配列：カッターの展開分類法を基礎に配列している。
  - 表示：合成表示
  - 記号：純粋記号法で十進のアラビア数字
  - 索引：相関索引

- 9版
  - 一般補助表I　：形式区分
  - 一般補助表I-a：地理区分
  - 一般補助表II　：海洋区分
  - 一般補助表III　：言語区分
  - 一般補助表IV　：言語共通区分
  - 一般補助表V　：文学共通区分

- - - 414（幾何学）＋033（辞典）→　414.033（幾何学辞典）
    - 420（物理学）＋033（辞典）→　420.33（物理学辞典）
    - 332（経済史）＋03（参考図書）→　332.003（経済史の参考図書）
    - 532.09（原子力産業）＋02（地域的扱い）＋1（日本）→　539.09021（日本の原子力産業）
    - 016.2（公共図書館）＋33（イギリス）→　016.233（イギリスの公共図書館）

- 知識の全分野を1-9に区分、どれにも入らないものを0（総記）とする。
- 第2区分以降では、総記はさらに細分した形でしか現れない（ので0で終わる記号は使われない）。
- 本来は1桁や2桁の記号でもダミーの0を補って3桁にする。
- 合成の再は、すでに本表に存在する記号と重複しないよう気を付ける必要があるという、DDCと同様の注意事項がある。

2014-10-05

Mike Gancarz『UNIXという考え方』

http://id.ndl.go.jp/bib/000002965498
Mike Gancarz 著『UNIXという考え方 : その設計思想と哲学』芳尾桂監訳、オーム社、2001年2月
★感想メモ

魔法使いのひとりが面白かったと言っていたので読んだ。
面白くてすいすい読んだ。タイトルとサブタイトルそのままの内容で、ここに書かれている「考え方」「思想」は、すべてとは言わないけれど半分くらいはいまの仕事に当てはめて「うむ、そうだな」と思えるものだった。といっても当てはめ先は、例えば文章の書き方とか、報告書の作り方とか、情報共有の仕方とかなので、この本に書かれていたようなシステムやプログラムとは別のことだけれども。
私は面白く読んだけれど、UNIXというものはよく知らない。というかほとんど知らない。むしろまったく分かっていない。どのくらい分かっていないかというと、UNIXってなんだろうとググって、IT用語辞典とかWikipediaとかを読んで、「UNIXとは〜〜なOSのことである。」と書いてあるので「OSってなんだっけ」とググる、というくらいの分からなさ加減なので、たぶんほぼチンプンカンプンなレベルにいるのだと思う。なんやかんやとシステム系の言葉に触れることはあるので、概念モデル？みたいなものはときどき見ているはずだけれど、図式化されたものや比喩による説明などは、分かっていない人間にとっては煙にまかれて分かったような分からないようなという気分にさせられるだけなんだなということが分かるだけというところから進めず、結局のところ何がどうしてどうなっているのかを具体的には理解していなくてイメージできないので（例えば「OS」「オペレーティングシステム」でGoogle画像検索した結果から何かイメージできるか見てみてほしい。きっと「はぁっ？」ってなる。そういう感じ。）、つまみぐいの記憶がときどき出てくるけれど全体としてはよくわからないなと思うので、そのままチンプンカンプンから抜け出せない。
こんなレベルにいても、分からないことを分からないまま読み進めることができる人ならきっと楽しく読める本。

★定理メモ
（コロン「：」の右側は勝手なまとめ）

1. スモール・イズ・ビューティフル：小さなプログラムは分かりやすく保守しやすくリソースを食わず他のツールと組み合わせやすい
2. 一つのプログラムには一つのことをうまくやらせる：小さなプログラムになる
3. できるだけ早く試作を作成する：すべては変化していくのだからはじめから完全なものを作らなくていい
4. 効率より移植性：新しい技術に乗っかっていける
5. 数値データはASCIIフラットファイルに保存する：読みやすく分かりやすく移動が簡単
6. ソフトウェアの梃子を有効に活用する：既存の移植性の高いものを有効活用してコストをかけずに機能を高め、移植性の高いものを提供してより広く使ってもらう
7. シェルスクリプトを使うことで梃子の効果と移植性を高める
8. 過度の対話的インタフェースを避ける：ユーザは人間とは限らない
9. すべてのプログラムをフィルタする：すべてのプログラムはフィルタである

2014-08-29

置換で大量のデータをきれいにする

牧草地にしゃがんで草むしりしていたら魔法使いが一瞬できれいにしてくれた、みたいなお話。

はじめに

全体で1000万件を超えるデータ。1件の中身は10桁くらいの数字たちで区切りはセミコロン「;」。そういうデータが出てくるはずだったのに、開いてみたらば文字化けとかいらない数字とかカッコとかのいらないものがたくさん入り込んでいた。そのうちパターンが一定している約5万件はMicrosoftのAccessから取り出してExcelのFINDとMIDで消せたけれど、それではダメな約1000件をきれいにする方法は、どうにもこうにも分からなくて、しかたないのでDeleteキーでひとつひとつきれいにして回っていた。
手作業ではいつまでも終わりは見えなくて、もちろん夕方には肩も目も痛くなり、つらいようとこぼしたら魔法使いたちがやってきて、きれいにできるよ、簡単さ、と言った。そして、まばたきするうちにきれいにしてくれた。
魔法使いのひとりがこの技を記録しておきたまえと言うので、それからほかのひとが私みたいに無駄な肩こりにならなくてもいいように、メモを。

環境

私が使うことを許されていたツール（ソフト）は、TeraPadとExcel、だった。
魔法使いのひとりによれば「TeraPadは改行とタブの置換ができるので、Excelとの組み合わせ次第でけっこういろんなことができるのでお勧め」らしい。

魔法

データをTeraPadにコピペ
置換：　\n　→　\n\n
置換：　;　→　\n
置換：　(　→　\t
Excelにコピペして、1列目だけTeraPadにコピペ
置換：　\n　→　;
置換：　;;　→　\n

＊「\n」は改行1個、「\n\n」は改行2個、「\t」はタブ。
ただ、「6. 置換：　\n　→　;」でTeraPadが「1行8000文字制限を超えている可能性があってムリ」と言って動かなくなるので、「5. …TeraPadにコピペ」を100件ずつにしてちまちまと置換をしては貼り合わせる、というのを10回繰り返した。（8000文字を超えてもデータがなくなるわけではなく表示されないということのようだけれど、見えないと自分の操作でデータに何が起きているか把握できず不安になるので手作業でやった。）

対象データの例（実際のデータとは異なります）

1590732743021 (逕イ鬪ィ蜊キ);1590732743663 (邇牙勣蜊キ);1590732706113 (逑キ蝎ィ蜊キ譏惹サ」);1590732706172 (逑キ蝎ィ蜊キ貂・サ」);2732706323 (譏取ク・。」譯亥キサ譏惹サ」);1590732706121 (譏取ク・。」譯亥差貂・サ」);2732706367 (扈倡判蜊キ蜴・彰逕サ);1590732706164 (扈倡判蜊キ鬟惹ソ礼判)
3121074603 (4);3121074611 (7);3121074327 (6);3121074683 (2);3121077237(3);3121077243 (1);1268121076603 (12);1268121076617 (13)3121174323 (1);3121174681 (2);3121170611 (3);3121170622 (4);3121174662(7);3121174627 (6);1268121174687 (2);1268121174312 (3)3131246068 ・ゥ・ュ・ィ・・?ク;3131246041 (・ゥ・ュ・・巡 ?ク);3131246177 (・菩寳・・?ク);1268131243142 (・ス・・お・・?ク);1268131243174 (・ス・・カ・巡?ク);1268131246802 (・懍」シ・・?ク);1268131241422 (・・攵・ィ・・?ク);1268131241458 (・・攵・・巡 ?ク)
315903132X;315903211X (3;3159068017 (4);3159068423 (7);3159068731(6);3159068712 (2);3159058307 (3);3159058313 (1);3159058321 (10);315905868X(11);3159032363 (12)
1590758241032（(隨ャ3霎・2);1590758241041（(隨ャ3霎・3));1590758241076 (隨ャ3霎・4);1590758241063 (隨ャ3霎・7;1590758241020 (隨ャ3霎・6);1590758241032 (隨ャ3霎・2);1590758241014 (隨ャ3霎・3);1590758241100 (隨ャ3霎・1);1590758241112(隨ャ3霎・10)

つまり、データのパターンはこんな感じ。

各データは1件=1行
必要な数字の後ろにいらないものが続く
必要な数字といらないものの間にはスペースがある場合とない場合がある
いらないものの数は一定していない
いらないものの種類は一定しておらず文字、数字、記号、これらの組み合わせ、の場合がある
いらないものの前後にカッコがあったりなかったりする
カッコ内にカッコがあったりもする

魔法は何にでも効くわけじゃなかった

できた！と喜んだのはもちろん。…でも、ここまで書いておきながらアララという感じだけれども、じつは私が掃除しようとしていたデータは、これだけではきれいになってくれなかった。ということに気づいたのは翌日で、なんとなく不安になって数字以外のものが入っているデータを抽出して（250万件くらい）ひたすら見ていったら（といっても見切れなかったけれど）、直せていないものがあった。
たとえば、こんなパターン。

数字と数字の間のいらない文字が「[1]」とか「[2]」とかの場合
数字のすぐ後ろに（スペースなどなしで）アルファベットが続いている場合
数字の後ろに「 '」（スペース、ダッシュ）が続いている場合

こんなふうに、拾えなかった＝きれいにできなかったデータはほかにもあるかも知れず、つまり掃除する対象のパターンをすべて洗い出さないと、思わぬ取りこぼしが起きたり、思わぬことが起きたり（セミコロンで区切られるはずの数字たちがくっついてしまったり）という危険があって、でも、私がきれいにしなくてはならなかったデータのうちあやしげな約250万件の全てを網羅するパターンを取りこぼしなく目で確認するのは非現実的で…うーむ…と、思っていたら、また別の魔法使いがやってきて、「その掃除、前にやったことあるからすぐできるよ」と言って、ものの10分くらいで1000万件超をさっときれいにしてくれて、ありがたいのと同時に私の生きている時間の無駄さがいやになった。魔法使いになりたい。

ちなみに、私のPCは弱っちいために大量のデータにはすぐ息切れする。ふっと画面が真っ白になってマウスも効かなくなって世界は終わったと思いながら茫然と復活を待つ、というのを繰り返す日々でアドベンチャーすぎるなぁと思っているところ。

2014-07-27

リチャード・ルービン『図書館情報学概論』

http://id.ndl.go.jp/bib/025441949
リチャード・ルービン著『図書館情報学概論』根本彰訳、東京大学出版会、2014年5月
★感想メモ

会誌の先輩からおすすめいただいて読んだ。
アメリカの図書館教育・図書館学校・関連協会設立の歴史など過去のことについては、知らなかったことがまとめられていて、なるほどそういう流れだったのかということばかりだった。
現在につながる課題として取り上げられているものについては、アメリカの事情と日本の事情ではだいぶ異なる部分がありそうだなと思いながら読んだ。たとえば公共図書館に求められている教育的な役割については、公教育の整備状況や移民の多さ、マイノリティとくくられる人の多さ（白人・黒人といった「皮膚の色」やヒスパニックなどの「出自」の違いによって受けられる教育が異なるなど）といった問題があるために、公教育に変わる教育支援的のニーズが明らかである、など。
組織の在り方、職業選択の在り方、キャリアパスの在り方、という意味でもアメリカと日本とではだいぶ異なるため、この本に書かれていることは参考事例として読む、という姿勢に自然となっていたと思う。そして違いがあることは当然に想像できるがために、この本に書かれていることの中では、問題や課題に対する取り組み方が参考になると思った。
訳者あとがきによれば、本書は1998年に初版が出たあと、2000年に改訂版、2004年に第2版、この訳書の底本が2010年の第3版とのことなので、いま（2014年）から4年前の本なのだけれども、いまはもう違うなと思うことが当時の現在や当時からみた未来の話として書かれている点については、すでにだいぶ古くなってしまっている部分があり、更新が必要だと思った。それだけ変化が早いのだとも言えるだろうし、それだけこのようにアメリカの図書館教育や図書館業界全体を俯瞰した本を書くことは難しいのだとも言えるだろう。
そういうわけで古くなってしまう部分については保留をもって、あるいは「いまは違うね」と思いながら読んだけれども、古くならない歴史については勉強になった。といっても、幅広い知識を持っていて日本のこれまでの図書館や情報提供機関をよく知っている人なら、古くなってしまう部分からもいろいろなことを読み取ることができるのかもしれず（先輩はそのような感銘を受けてすすめてくださったので）つまりは理解の浅さや価値の読み取りは、読み手である私に問題があるのかもしれない。

★概要メモ（粒度は章によってバラバラ、「＜」の右側は感想）

1 教育、娯楽、情報のインフラ整備
- 教育、娯楽、情報（ERI）は知識や情報の創出と普及と利用のプロセスであり、そのために必要な装置であり、この装置はネットワークとメディア産業（出版、通信、放送、データベース）に依存している。そしてこのインフラの機能は、図書館や教育・学術機関があることによって、より高められている。

2 図書館情報学：進化し続ける専門職
- アメリカにおける図書館教育の歴史：19世紀後半のアメリカにおける公的図書館の急増（1825年から1850年に551、1875年までに2200館以上）、図書館職の徒弟制から専門職業化へ（デューイの推進力）、ALAの設立経緯、20世紀初頭までの図書館学校の増加、1950年代と1960年代の図書館学校全盛期、1980年代の不況による2000年までの図書館学校の閉鎖
- 図書館（読書、リテラシー、生涯学習）VS情報（情報探索、コンピュータ科学、工学、行動科学）の論争＜「VS」になるものではなくて両方必要なもの、と思うので、論争になるなんて不思議だなぁと思う。
- 表向きのコンピテンシー（＜形骸化？）、カリキュラムの模索（理論と実務のバランス）、修士号の役割（十分条件ではないものの図書館職への入り口として必要条件となっている）
- マイノリティグループ出身者の採用の増加の必要性（多様性の増大）、しかし依然として少ない（公共図書館で約10%、大学図書館で約8%）
- 図書館員の自己イメージ・自己卑下、実際に持たれているイメージはそれほど悪くない（むしろ良い）、ジェンダーイメージ（＜図書館に限った話ではないと思われる）
- 図書館員15万8千人、小中学校教員440万人（2007年アメリカ労働統計局）。図書館員の年齢中央値は50歳、60%が45歳以上
- 情報の組織化、知識体系へのアクセスの集約と提供、ニーズの察知・査定、評価、サービスマネジャー、指導者（？）、知識と学習への誘い、人間の問題の解決、生活の向上

3　情報の組織化：その技術と問題点
- 研究者のニーズ pp.120-121（訳文から少し文言変更）
  - 1 すべての関連情報資源についてもっとも明確でより幅広い視点
  - 2 特にその研究分野の課題において、実は重要で意義深く、基準となる情報資源を見落としていないか
  - 3 不必要な過去の重複研究はしたくない
  - 4 時分の研究に領域横断的に関連するものを知りたい
  - 5 時分の同一主題の研究に分類される近年の図書を探し出し、より最新の研究結果を従来の研究結果と照らし合わせたい
  - 6 思いつかないけれど密接に関連しているキーワードを認識させて最適の文献を得られるメカニズム
  - 7 巨大なリストやデータを表示する作業（？）は省きたいが検索結果の向こうにある多様な情報資源を確認する必要があるとは思っている
- メタデータ p.136
  - CSDGM：地図や地名索引等の地理情報のメタデータ標準
  - CDWA：芸術作品のための芸術作品記述カテゴリ
  - VRA：視覚情報資源協会コアカテゴリの資格情報資源
  - LOM：学習資源メタデータ（シラバス、講義メモ、模擬実験、教材などのため）

4　機関としての図書館：その組織を展望する
- 図書館の機能と仕事(部署)、意思決定、各館種の特徴・役割と課題と期待と貢献(可能性を含む)、財政難と説明責任と量的な価値測定

5　図書館を再定義する：テクノロジー変化の影響と意義
- 技術の変化と図書館：マイクロ写真術の発達と複写（1990-1960年）、図書館へのコンピュータの適用（1960年代から）、各種業務の自動化（1970年代）、CD-ROMとOPAC（1980年代）、ウェブとオンライン利用と検索エンジン（1990年代）、デジタル図書館・ウェブポータル・インターネット・SNS（ブログ・Wiki・RSS）（2000年代）
- 物理的な場所だった図書館の今後の役割は？今後も変化し続ける宿命：目録・選書・受入・貸出・レファレンス・コレクション・財務・コンテンツへのアクセス・保存・職員（業務自体が不要に・情報系職員の給与の高さと図書館系職員の給与の低さ・電子技術の身体への悪影響）

6　情報学：サービスの視点
- どんな情報が求められているかを把握し、提供できる情報の性質を知ったうえで提供方法を考える