今日の海外新聞

テック系、考古学系、市民活動系

AIの間違いは「手作業」でおこります

イギリス・テック情報TheRegister

AIには「タグ」のついた画像、音声データセットを使います

データセットの大量の画像には、それぞれに画像、音声の意味を示す

「タグ」が使われています

「タグ」は「手作業」でおこなわれます

データセットの画像には、、ImageNetの写真から、

AudioSetのサウンド、Amazonから削り取られたレビュー、

QuickDrawのスケッチまで多岐にわたります。

各サンプルに注釈を付けるのは骨の折れる作業です。

この作業は、多くの場合、Amazon Mechanical Turkなどの

サービスにアウトソーシングされています。

このサービスでは、作業者はデータを1つずつふるいにかけ、

画像と音声にラベルを付けてAIシステムにフィードします。

このプロセスはエラーを増幅します。

作業者には、ちょっとした間違いですがAIが自動車に使われる今

「自動運転車が、三叉路を4方向の交差点として誤ってラベル付けする

、頻繁なラベルエラーのあるデータセットでトレーニングされた場合は

どうなりますか？」

f:id:bun-ten:20210404161907j:plain — AIのデータセットは手作業で作られます