基本的なディープマシンラーニングの データアノテーション の手順は 次のとおりである。
1、データ収集
正しいな教師データを収集するには、まず課題の内容 とそのビジネス上の価値を理解する必要がある。 課題データアノテーションの分類については、名前から 類推して キーワードを作成し、インターネットからのデータ検索ツールを使用して、画像を検索することが できる。 または、写真、ソーシャルネットワークサイトの動画、Googleの衛星画像、公共のカメラ や車(Waymo、Tesla)から 無料で 収集されたデータ、または 第三者からデータを購入することも できる(データの正確性については自己責任)
注:
収集されたデータのほとんどは、高さ、幅、比率が異なるデータであるため、データを収集した後、前処理を行う必要がある。したがって、ディープラーニングモデルに直接組み込むことはできません。 Open CV、Scikit-Imageなどの組み込みライブラリを使用して、イメージを前処理する。
2、データの注釈付け
AI開発において、一2、データの注釈付け番時間 と 手間がかかるのが 教師データの収集。まずは 収集した生のデータに注釈をつける必要がある。
ここは機械がうまく機能するかどうか を左右するため、重要なステップである。データのラベル付けが 間違っていると、機械が誤って 学習して、対象を認識してしまうので、この学習データを 準備するのに 多くの時間と労力を費やしす。注釈付けをする上で、注意すべきポイントが 二つある。
・注釈付けのやり方
・誰がやるのか
2−1、注釈付けのやり方
要件を満たすデータセットを準備したら、次は どのような方法で アノテーションをするのか を決める必要がある。分類なのか、オブジェクト検出なのか、セグメンテーションなのか、…
データは 決まったやり方に応じて 処理されていく。例えば 分類の場合は、インターネットからデータを見つけてクロールするプロセスで 使用されるキーワードである。インスタンスセグメンテーションの場合、画像の各ピクセル の 注釈が 必要。
その後、ツールを使用して 画像注釈(画像のラベルとメタデータを設定)を実行する必要がある。 一般的なツールには Comma Coloring, Annotorious, LabelMe などが ある。これらのツールは、画像の各セグメントに ラベルを付けるためのGUIを サポートする。
2−2、誰がやるのか
二種類ある。
社内:データを自社で ラベル付けす
・長所:データの精度管理が容易、低コスト。
・短所:データの収集とラベル付けに 時間がかかる。
アウトソース:データの提供を専門とする企業に 依頼する。
・長所:データを すぐ集められる。
・短所:データの透明性、正確性がわからない。費用が かかる。
3、テストと評価のモデル
適切なディープラーニングモデル を選択 → トレーニングを実施 → テスト と 評価を実施
4、品質の基準を満たす
問題の要件を満たすまで、上記の手順を繰り返す。
アノテーションサービスの詳細 については、こちらを参照してください。
Lotus Quality Assurance (LQA)
電話番号: (+84) 24-6660-7474
メール: [email protected]
ウェブサイト: https://www.lotus-qa.com/