今日の海外新聞

テック系、考古学系、市民活動系

アメリカ AIが大学図書館の本を読みはじめます

アメリカAP通信6/13

今あるAIが取り扱えるデータのほとんどはインターネット上のもので、それは人間の知識の一部にした過ぎません


人間の知識の多くは大学などの古文書にあります

しかし、古文書のデジタル化には多額の費用がかかるのです

今回ハーバード大学は、マイクロソフトとChatGPTの開発元であるOpenAIからの「制限のない寄付」に支えられそのコレクションである15世紀初頭に出版された約100万冊の書籍(254の言語で)などを、6月12日からAI研究者向けに公開します。


ハーバード大学が新たに公開したデータセット「Institutional Books 1.0」には、3億9,400万ページ以上のスキャンされた紙が収録されています。初期の作品の一つは1400年代のもので、韓国の画家が花や樹木の栽培について手書きで書いたものです。最も多くの作品が集中しているのは19世紀の作品で、文学、哲学、法律、農業といったテーマを扱っており、これらはすべて何世代にもわたる図書館員によって綿密に保存・整理されてきました。

これは、システムの精度と信頼性の向上を目指す AI 開発者にとって大きな恩恵となります

しかし、大学図書館の大量の古文書には、誤りであると証明された科学理論や医学理論から人種差別や植民地主義の物語まで、時代遅れのデータも数多く存在します「これほど大規模なデータセットを扱う場合、有害なコンテンツや言葉遣いに関する厄介な問題がいくつか生じます」とハーバード大学は注意を促します