最良の データラベリングアウトソーシング ベンダーの選び方
ベトナム、中国、インドなどの新興BPOの目的地へのデータラベリングサービスのアウトソーシングは、最近の傾向になっています。 ただし、多くの企業の中から最適な データラベリングアウトソーシング ベンダーを選択することは容易ではありません。 この記事では、LQAが最適なベンダーを見つけるためのアドバイスを紹介します。 1.明確なプロジェクト要件を準備します まず第一に、最終結果に対する自分の期待のすべてを示す明確で詳細な要件を準備することが重要です。 リクエストにプロジェクトの概要、タイムライン、予算を含める必要があります。 適切な要件は下記のようになります: アノテーターはどのようなデータ型を処理するか? どのようなアノテーションタイプをするか? データにラベルを付けるには、専門知識が必要か? データセットに高精度の注釈を付ける必要があるか? 注釈を付けるファイルはいくつか? プロジェクトの締め切りはいつか? このプロジェクトの費用はいくらか? 要件に一致するアノテーションタイプを提供していますか? 2.ベンダーを評価するための必須基準 要件を確定したら、どのベンダーと契約したいかベンダーリストから評価する必要があります。 多額の費用をかけ、品質低いデータセットを貰わないよう、この段階は非常に重要です。 経験、品質、効率、セキュリティ、チームメイトに基づいて評価することをお勧めします。 経験 データのラベル付けは簡単な作業のように見えますが、大規模のデータを効率的かつ正確に実行するには、細部に細心の注意を払い、特別なスキルが必要です。各ベンダーが具体的にあるデータアノテーション量でどのくらいの期間作業してきたか、及びアノテーターがどの程度の経験を持っているかをしっかりと理解する必要があります。評価するために、長年の経験、ドメインに関する知識、およびアノテーションタイプについてベンダーに問い合わせる必要があります。 例えば: データアノテーションに何年の経験がありますか? 以前に特別なドメインに関する知識を要求するプロジェクトでやったことがありますか? 要件に一致するアノテーションタイプを提供していますか? 品質 データサイエンティストは、多くの場合、ラベルがどの程度正確に配置されているかによって、モデルトレーニングのデータセットの品質を定義します。ただし、1〜2回正しくラベル付けすることではなく、一貫して正確なラベル付けが必要です。下記のようにベンダーの高品質のラベル付きデータを提供する能力があるかどうか確認できます: 以前のアノテーションプロジェクトのエラー率 ラベル配置の正確度 アノテーターは各ラベルに適切タグを付けたの頻度 次の動画でデータ品質の詳細をご覧ください : 効率 アノテーションは想像以上に時間がかかります。例えば、5分間のビデオでは、1文に平均24フレームがあり、ラベル付け画像が最大7200枚になります。アノテーターが1枚の画像のラベル付けに使う時間が長いほど、タスクを完了するために必要な時間が長くなります。プロジェクトを完了するための必要な工数を正しく見積もるには、ベンダーに下記のように確認する必要があります: 各ラベルを配置するの平均時間 各ファイルでラベルを付けるの平均時間 各ファイルの品質チェックの時間 ベンダーのアノテーションチームがプロジェクトを直接実行するため、アノテーションチームの能力を理解することは重要です。ベンダーは、十分に訓練されたチームを提供すること。 さらに、テキストにラベルを付ける場合、ラベル付けチームがその言語を話せるかどうかを確認する必要もあります。また、ベンダーに、アノテーションチームを短期間でスケールアップまたはスケールダウンする準備ができているかどうかを確認することが重要です。プロジェクトのサイズは時間の経過とともに変化する可能性があります。 …