AIには「タグ」のついた画像、音声データセットを使います
データセットの大量の画像には、それぞれに画像、音声の意味を示す
「タグ」が使われています
「タグ」は「手作業」でおこなわれます
データセットの画像には、、ImageNetの写真から、
AudioSetのサウンド、Amazonから削り取られたレビュー、
QuickDrawのスケッチまで多岐にわたります。
各サンプルに注釈を付けるのは骨の折れる作業です。
この作業は、多くの場合、Amazon Mechanical Turkなどの
サービスにアウトソーシングされています。
このサービスでは、作業者はデータを1つずつふるいにかけ、
画像と音声にラベルを付けてAIシステムにフィードします。
このプロセスはエラーを増幅します。
作業者には、ちょっとした間違いですがAIが自動車に使われる今
「自動運転車が、三叉路を4方向の交差点として誤ってラベル付けする
、頻繁なラベルエラーのあるデータセットでトレーニングされた場合は
どうなりますか?」