データアノテーター
人工知能は 今最も 急速に成長している 分野の一つで、私たちの日常生活にも 広く利用されています。携帯電話、自動車、金融 システム、都市インフラなど 様々なところで AIが 重要な役割を果たしています。
AIが 身近なものとなり、多くの人が AIについて 知っているように見えますが、AIを構築する作業の中で 最も 重要であるアノテーションについて 知っている人は ごくわずかです。
AIは データの学習から 構成されており、それはまるで ブロックを組み上げていくようなものと言っても 過言ではありません。機械学習 アルゴリズムは 何もないところからは 生まれません。彼らは ラベルが 付いたデータを取り込むことで、一定のパターンを認識できるようになります。つまり、学習が 必要なのです。
そのためAI 開発者は、機械学習 アルゴリズムを学習させるために、人の手によって ラベルが 付けられた、数千ものデータを用意することが 必要となります。
私は 今こそ、AI開発の裏に 隠れた秘密兵器である、データアノテーター の仕事 を紹介したいと思います。
AI 開発の秘密兵器
アノテーションとは
データアノテーター とは テキスト や 動画、画像など あらゆる形態のデータに ラベルを付ける作業のことです。
はじめは データに 構造や順序がないので、機械は データを判別できません。
写真に何が 写っているか、音の判別、異なる言語の文字に 人がラベルを付けないと、データは 単なるノイズになってしまいます。
しかし、データアノテーター 作業により ラベルを付けていけば、このノイズは 集中的な学習マニュアルになり、機械は 入力されたパターンを簡単に、明確に 判別できるようになります。
アノテーター達は 機械が 人間の世界を理解できるようにするために、ハードワークをこなしています。
アノテーションはどのように処理するのか
それでは、もし あなたが AIを搭載した 自動運転の車の開発に 取り組んでいて、写真の中の車を識別するアルゴリズムを持っているとします。
そのアルゴリズムの中では、「車」とは エンジン、4つの車輪、いくつかの 座席を備えたものと 定義づけられています。
簡単そうですね。
しかし、コンピュータは そもそもエンジン、車輪、座席とは 何なのかを判別できません。
ここで データアノテーター が 登場します。
コンピュータが「車」を認識できるようにするために、写真の中に「車」が あるというラベル付けされている 何百万枚もの写真が 必要になります。
このような画像を認 識するための 教師データの学習を通じて、機械学習アルゴリズムをトレーニングしていきます。
ですから、基本的には アルゴリズムに対して、何が 車かを伝えることは ありません。その代わり、数百万のラベリングされた 写真のデータを与えることで、アルゴリズム 自身に パターンを認識させる手助けをします。
「データアノテーションは 非常に 労働集約的であり、収集されるデータの1時間ごとに 注釈を付けるのに 800時間近くかかります。」
はい。データアノテーター は 依然として 手作業を必要とする、アナログなプロセスです。Cognilytica’s data preparation & labelling 2019 reportによると、現在 AI開発のうち 80%は データの準備に費やされているようです。データの小さなエラーでさえ 大きな損害 をもたらすことが あります。この分野では、人間は 実際に機械に 足を踏み入れています。人間は 主観性の管理、意図の理解、曖昧さへの対処において 機械より 優れています。これらは 全て データアノテーションの重要な要素です。
そこに は何のタネも 仕掛けもありません。ただあるのは 人間による大変な労働です。
機械は、人間が アウトプットした分だけ 良いものになります。そして、次のデジタル 革命の立役者は、PCの前に座って データ注釈 を付けているアノテーターです。
彼らが いなければ、人工知能は 存在しません。
アノテーションサービスの詳細 については、こちらを参照してください。
Lotus Quality Assurance (LQA)
電話番号: (+84) 24-6660-7474
メール: [email protected]
ウェブサイト: https://www.lotus-qa.com/
Youtube: Lotus QA チャネル