データのラベル付け品質の問題は、AI/MLコミュニティで大きな関心事となっています。このパズルを解くときに出くわす最も一般的な「原則」は、おそらく「Garbage in, garbage out」でしょう。
このように言うことで、私たちが強調したいのは、人工知能や機械学習の開発プロジェクトにおけるトレーニングデータとの基本的な法則です。AI/MLモデルに供給される質の悪い学習データセットは、操作に多くの誤りをもたらします。例えば、自律走行車のトレーニングデータは、その車が道路上で機能するかどうかの決め手になります。質の悪いトレーニングデータを使用すると、AIモデルが人間を物体と間違えたり、逆に物体を人間と間違えたりする可能性があります。いずれにしても、質の悪いトレーニングデータは事故のリスクを高めることになり、自律走行車メーカーにとっては最も避けたい事態となります。
高品質な学習データを得るためには、データ処理の過程でデータラベリングの品質保証を行う必要があります。
弊社は高品質なトレーニングデータセットを確保するために、以下の3つのアクションを行っています。AI/MLモデルに最適なトレーニングデータを提供するための基本的なガイドをご覧ください。
1. データラベリングの品質管理を強化するためのお客様の要求を明確化
品質の高いデータラベリングとは、単に最も丁寧にアノテーションされたデータや、最高品質のトレーニングデータを意味するものではありません。戦略的なデータアノテーションプロジェクトでは、トレーニングデータの要件を明確にする必要があります。アノテーションチームのリーダーが答えなければならないのは、どの程度の品質のデータが必要なのかということです。
データアノテーション品質を提供するベンダーとして、私たちが常にお客様にお聞きするのは、その要件です。「データセットを扱うのにどれだけ手間がかかるか」、「アノテーションの精度はどうしたいか」などです。これらの質問に答えることで、後々のプロジェクト全体のベンチマークとなるのです。
人工知能と機械学習の実装は非常に幅広いことを覚えておいてください。自律走行車や交通機関での一般的なアプリケーションのほか、AIやMLはヘルスケアや医療、農業、ファッションなどでもデビューしています。それぞれの業界には、何百もの異なるプロジェクトがあり、異なる種類の対象物を扱い、それゆえに異なる品質要件があります。
簡単な例として、道路のアノテーションと医療データのアノテーションを紹介します。道路のアノテーションの場合、作業は非常に簡単で、一般的な知識を持ったアノテーターがいれば大丈夫です。一方、このアノテーションプロジェクトでは、アノテーションが必要なデータセットの数が数百万の動画や写真にも及ぶため、アノテーターは許容範囲内の品質で高い生産性を維持する必要があります。
一方、医療データでは、特定の知識を持った医療分野で働くアノテーターが必要です。糖尿病性網膜症の場合、訓練を受けた医師が写真から糖尿病性網膜症の重症度を評価することで、この分野にディープラーニングを適用することができます。
よく訓練された医師であっても、すべてのアノテーションがお互いに一致するとは限りません。一貫した結果を得るためには、1つのアノテーションチームが各ファイルに何度もアノテーションを行い、最終的に相関関係を得る必要があるかもしれません。それは、与えられたデータがどれだけ複雑か、またお客様がどれだけ詳細なデータ出力を望んでいるかという問題です。これらが明確になれば、チームリーダーは必要な成果を得るためのリソースの配分を考えることができます。指標と品質保証プロセスはこの後に定義されます。
また、クライアントは、アノテーションされるすべてのデータセットの「ベンチマーク」となるサンプルセットを提供する必要がある。これは、データアノテーションの品質を保証するための、最もわかりやすい手法です。完璧にアノテーションされたデータの例があれば、今度はアノテーターがトレーニングを受け、仕事のベースラインを提示することができます。
ベンチマークを理想的な結果とすることで、各アノテーターの精度やパフォーマンスを評価するための一致率の指標を算出することができます。アノテーションとレビューの両方のプロセスに不確実性がある場合、QAスタッフはこれらのサンプルデータセットを使って、どれが適格でどれがそうでないかを定義することができます。
2. 多層的なQAプロセス
データラベリングプロジェクトにおけるQAプロセスは、企業によって異なります。ロータスQAでは、国際的に標準化された品質保証プロセスを遵守しています。事前に設定された優先は、常にプロジェクトの開始時に明確にされます。これらの設定は1つの「ベンチマーク」にまとめられ、後にすべてのラベルとアノテーションの「ゴールデンスタンダード」として機能します。
2.1. 自己診断
このステップでは、アノテーターに自分の作業のレビューをしてもらいます。自己評価をすることで、アノテーターはプロジェクト開始時のデータアノテーションツール、アノテーション、ラベリングを振り返ることができるようになります。通常、アノテーターは、時間的にも仕事的にも大きなプレッシャーの中で仕事をしなければならず、そのために仕事に狂いが生じてしまう可能性があります。セルフチェックから始まる品質保証では、アノテーターがゆっくりと自分の仕事ぶりを見直すことができます。間違いや逸脱の可能性を認めることで、アノテーターは自分でそれを修正し、将来的にそれらを避けることができます。
2.2. クロスチェック
データサイエンス、特にデータアノテーションにおいて、「バイアス」という言葉を聞いたことがあるかもしれません。アノテーションの偏りとは、アノテーターがデータをラベル付けする際に独自の習慣を持っているため、提供されたデータに対して偏った意見を持ってしまうことを指します。場合によっては、アノテーターの偏りがモデルの性能に影響を与えることもあります。よりロバストなAIやMLモデルを構築するためには、偏ったアノテーションを排除するための有効な手段を講じる必要がありますが、そのためのシンプルな方法の一つがクロスチェックです。
アノテーションの過程でクロスチェックを行うことで、作品全体の見方が変わり、アノテーターは同僚の作品の間違いやエラーを特定することができます。また、このような異なる視点を持つことで、レビュアーは偏った注釈を指摘することができ、チームリーダーはさらなる行動を起こすことができます。チームリーダーは、手直しをしたり、注釈が本当に偏っているかどうかを確認するために再度評価を行ったりすることができます。
2.3. マネージャーの評価
アノテーションプロジェクトマネージャーは、通常、アノテーションプロジェクトの日常的な監督を担当します。主な仕事は、作業員の選定と管理、データの品質と一貫性の確保などであります。マネージャーは、クライアントからデータのサンプリングを受けて、必要なメトリクスの作業を行い、アノテーターの教育訓練を実施する役割を果たします。クロスチェックが済んだら、マネージャーはアウトプットをランダムにチェックして、クライアントの要求を遵守しているかどうかを確認します。これらのチェックに先立ち、アノテーションのプロジェクトマネージャーは、品質保証のための「ベンチマークライン」を引かなければなりません。一貫性と正確性を確保するために、事前に設定した品質に満たない作業は、手直ししなければなりません。
3. 品質保証スタッフの関与
データラベリングの品質管理は、アノテーションチームだけに頼ることはできません。実際には、専門的で経験豊富な品質保証スタッフの関与が必須となる。アノテーション作業の最高の品質を確保するためには、品質保証スタッフのチームが必須である。品質保証スタッフは、アノテーションプロジェクトマネージャーの管理下ではなく、アノテーションチームの外にある独立した部門として働きます。
データアノテーションスタッフ全体に占める品質スタッフの理想的な割合は10%を超えません。QAスタッフは、プロジェクト内のすべてのアノテーションされたデータをレビューすることはできませんし、するつもりもありません。実際には、ランダムにデータセットを取り出して、もう一度、アノテーションをレビューします。
これらのQAスタッフは、データサンプルについて十分な訓練を受けており、アノテーションされたデータの品質を評価するための基準を持っています。これらの評価基準は、事前にQAチームのリーダーとアノテーションプロジェクトマネージャーの間で合意されなければなりません。セルフチェック、クロスチェック、マネージャーの評価の3段階のレビューに加えて、QAスタッフがアノテーションプロジェクトに参加することで、データ出力が事前に定義されたベンチマークに確実に適合し、最終的には最高レベルのトレーニングデータを確保することができます。
データラベリングの品質を向上するため、専門家の話をもっとお聞きしたいですか?ロータスQAにお気軽にお気軽にお問い合わせください。
- Website: https://jp.lotus-qa.com/
- Tel: (+84) 24-6660-7474
- Fanpage: https://www.facebook.com/LotusQualityAssurance