Themaコード提案ツール(🔮thema-oracle)はじめました [開発日誌 #01]

Themaという、商業出版流通における書籍主題分類スキームに関わる仕事をほそぼそと続けております。国際規格でもあり、体系としてはとても筋がよい一方、

  • なにせコードの数が多い。サブジェクトコードだけで3000以上あって、しかも、これを複数組み合わせて使うことが前提となっている
  • 「発信側、受信側双方のニーズを吸収しうる、十分に巨大で複雑な共通分類コード体系を「中間言語」として利用する」という発想に、日本の出版業界自体が馴染みがないので、「自社分類→Thema→書店の棚分類」、のような、中間言語を挟んだ運用イメージが湧きづらく、「翻訳作業」に対する精神的コストがデカい
  • 付番ルールもそれなりに複雑で、「なぜそのコードなのか」「なぜこのコードは(一見適合してそうなのに)付番してはいけないのか」を説明しづらい

といった問題があり、日本での普及はこのままでは難しいよなあ……と日々感じていました。

この導入ハードルの高さをなんとかしたい、というか自分自身いまだにThemaに迷い込むことがしばしばあり、3000コードの細かい中身まで覚えてられんわ、という怒りを原動力に、Themaコードの候補を提示する補助ツールを私的実験として作り始めました。

一応、動く品質のものになったので、
Themaコード提案(thema-oracle)として無料公開しています。

ChatGPTのGPTs(botみたいなモンです)で作ってあります。出版社はじめ、興味をお持ちの皆様はぜひ試していただければ幸いです。ツールの利用自体は無料ですが、設計でちょっと無茶をしており、リソース(トークン)をバカ喰いするので、ChatGPTの有料コース(Goプラン以上)が推奨です。動作イメージの確認のために無料で動作するNotebookLM版もありますので、google派の方はそちらをどうぞ。NotebookLM版の品質は、まあ、お値段なりといったところです。

利用マニュアル的なものはこちら

※本記事および本ツールは EDItEUR / JPO / JPRO 等の公式サービスではありません
また、出力は 候補提示であり、最終的な付番判断は利用者が行うことを前提にしています。Themaの定義や一次資料についてはEDItEURサイト、コード体系の逐次確認については EDItEUR の公式ブラウザを参照してください。


このツールで実現したいこと

Themaコード提案(thema-oracle) が目指すのは「AIが正解を言い当てる」ことではありません。
あくまでも、現場で使える「材料」として

  • 適切に絞り込まれた候補(最大3つくらいの主題コード+クォリファイア)
  • 根拠(どの語・どの観点からそう判断したか)
  • 要確認ポイント・追加提案(人がレビューすべき分岐)

をセットで返し、付番作業を “レビューしやすい形”にすることを目標にします。したがって、今後生成AIの性能がどんどん向上したとしても(するでしょうけど)、本ツールが「自動付番装置」を志向することはありません。

Themaは、主題コードに加えてクォリファイアを組み合わせて、繊細かつ詳細に主題を記述できる体系です。ある本の「真のテーマ」を知っているのは著者、そして出版社の編集・制作・営業といった「発信側」の人々であり、限られた書誌情報だけでは、「外側」からそれを確定することはできません。すべきでもありません。

だからこそ、発信者がその本の「主題」をThemaの語彙に翻訳し、その意図するところを言語化することが重要なのです。Themaそのものの改定・翻訳、説明資料等の充実も大事ですが、せっかく生成AIがあるのだから、「彼ら」を「Themaなんでも博士」兼、「Thema翻訳器+高速辞書引きツール」として活用してしまえ、という発想なのです。


余談(前史)

主題分類器の試作自体は以前から何度かトライしており、その度に「理論的には…理論的にはできそうなんだが…いかんせん俺の開発力と計算機資源が。。。(ぐぬぬ)」となっていました。それだけに、去年の終わりくらいに、「こんだけサービス百花繚乱だったら作れんじゃね?」と思って触り始めたら想定外の品質の推論が返ってきて、一応狙った動作をするレベルに数日で到達してしまい、なんというか感動もひとしおなのです……が、その話はまたいずれ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です