データアノテーション の目的
機械学習
機械学習はというと、AIに内包されるもので、特定のタスクをトレーニングにより機械に実行させるものである。機械学習の手法は、教師あり学習、教師なし学習、半教師あり学習と強化学習の4選がある。
▸教師あり学習:教師あり学習とは、学習データに正解ラベルを付けて学習する手法である。これは、事前に与えられたデータをいわば例題とみなして、それをガイドに学習を行うというのアルゴリズムである。
▸教師なし学習:教師なし学習は、学習データに正解のラベルを付けないで学習させる手法である。つまり、機械学習モデルが自力でデータの法則性、特徴を見つけていく。
▸半教師あり学習:半教師あり学習は、文字通りに教師あり学習と教師なし学習と共通点がある手法となっている。
▸強化学習:強化学習とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する機械学習の一種。例えばゲーム業界に、この学習手法により、エージェントは、タスクの報酬を最大化する一連の意思決定を行うことができる。
手法には何選がありますが、最もよく使用されるのは教師なし学習と教師あり学習である。
教師データとは?
教師データとは、一つ一つのデータに対して付与される正解を示す情報のことである。基本的に割り当てられたタスクの実行をAIに教えるテキストで、何度も使用を繰り返して予測を微調整し、正解率を高めていく。
AI向け教師データの作成し方 (データアノテーション)
ステップ1:データ収集
正しいな教師データを収集するには、まず課題の内容 とそのビジネス上の価値を理解する必要がある。 アノテーションのデータ分類については、名前から 類推して キーワードを作成し、インターネットからのデータ検索ツールを使用して、画像を検索することが できる。 または、写真、SNSの動画、Googleの衛星画像、公共のカメラ や車(Waymo、Tesla)から 無料で 収集されたデータ、または 第三者からデータを購入することも できる(データの正確性については自己責任)。
一般的なデータタイプには、画像、動画、テキスト、音声、および3Dセンサーデータがある。
画像:人、物、動物の写真。
動画:CCTVまたはカメラから記録されたテープ。
テキスト:さまざまなドキュメントの種類で数字や単語が含まれ、複数の言語で書いても使用できる。
音声:人口統計が異なる人々からの音声レコード。
3Dセンサーデータ:センサーデバイスによって生成された3Dモデル。
ステップ2:課題を把握する
課題を把握すると入力データにどんな手法を選ぶのかわかっていく。 コンピュータビジョンには、以下のようにタスクがある:
▸画像分類:入力データを分類し、画像にクラスラベルを割り当てること。
▸物体認識(オブジェクト ディテクション):画像から検出する物体に点や線を設置、あるいは矩形(バウンディングボックス)で囲みます。そのオブジェクトが何であるかを示すタグ(クラス)と座標情報のラベル(ローカライゼーション)も付ける。
▸領域抽出(セグメンテーション):画像をセグメンテーションした(輪郭線情報をポリゴンにより付与)後、クラスラベルを付ける。
ステップ3:データアノテーション
要件を満たすデータセットを準備したら、次は どのような方法で アノテーションをするのか を決める必要がある。データは 決まった手法に応じて 処理されていく。例えば、分類の場合、「ラベル」はクロールするプロセスでインターネットからデータを見つける時に使用されるキーワードである。 その後、ツールを使用して 画像注釈(画像のラベルとメタデータを設定)を実行する必要がある。 一般的なツールには Comma Coloring, Annotorious, LabelMe などが ある。これらのツールは、画像の各セグメントに ラベルを付けるためのGUIを サポートする。
データアノテーションプロジェクトを担当するのは?
社内
データが自社で ラベル付けす
・長所:データの精度管理が容易、低コスト。
・短所:データの収集とラベル付けに 時間がかかる。
アウトソース(外注)
データアノテーションサービスを提供しているBPO・ITアウトソーシング企業に 依頼する。
・長所:データを すぐ集められる。
・短所:データの透明性、正確性がわからない。費用が かかる。
オンライン労働力
Amazon MechanicalTurkやCrowdflowerといったプラットフォームでアノテーションの業務を委託することができる。
・長所:労働力が多い
・短所:正確性がわからない。
機械学習を構築するには、データサイエンティストに複雑な機械学習タスクのインフラを構築させるだけでなく、入力データにラベルを付けるためのデータアノテーターも必要もあります。
Lotus Quality Assuranceは、さまざまなドメインで専門的なデータxアノテーションサービスを提供します。 品質レビュープロセスにより、高品質で安全なサービスを提供することをお約束します。 さらにサポートが必要な場合は、お問い合わせください。