아임뉴스-우리가 언론이다. 시민 기자단! |
사)시민과미래 교육이사
사)한국청소년문화진흥협회 총재
주)중앙방송 편집국장
지금까지와는 다르게 우리가 살고 있는 시대는 AI라는 존재와 필요한 공존할 수밖에는 없는 상황이 되고 있다. 또한 더 이상 근력을 기반으로 하는 노동의 시대가 저물어가고 있음을 우리 인간이 온몸으로 느껴가고 있는 현실이다. 앞으로의 미래 사회는 인간의 생존과 존엄이 AI에 의해 심각한 위협을 받을 수밖에는 없을 것이다. 인간의 삶을 더욱 풍요롭고 안전하게 보장하기 위해서는 AI를 어떻게 어떤 방향으로 제작하고 활용할 것인지에 대한 진지한 고민과 함께 사회적 협의가 지속적으로 이루어져야 할 것이다. 이러한 상황 속에서 AI라 일컬어지는 인공지능 분야에서 핵심적인 화두로 떠오르고 있는 데이터라벨링에 대해 이야기해 보고자 한다.
데이터라벨링이란
데이터 라벨링은 컴퓨터 비전, 자연어 처리 등 다양한 인공지능 분야에서 핵심적인 작업 중 하나이다. 데이터 라벨링은 각각의 데이터 포인트(이미지, 비디오, 텍스트 등)에 대해 레이블을 부여하는 과정으로, 이를 통해 기계 학습 모델이 데이터를 이해하고 분류할 수 있도록 한다. 예를 들어, 자율주행 자동차를 개발하는 경우, 촬영된 도로 환경 이미지에 대해서는 각각의 차선, 신호등, 교차로 등을 라벨링하여 컴퓨터 비전 분야에서 활용되게 된다. 또한, 음성인식 분야에서는 텍스트 데이터에 대한 음성을 라벨링하여 자연어 처리 분야에서 활용된다. 데이터 라벨링은 사람이 직접 수행하는 경우도 있지만, 최근에는 컴퓨터 비전 기술을 이용한 자동 라벨링 기술이 더욱 발전하면서 더욱 효율적인 데이터 라벨링이 가능하게 되고 있다.
데이터라벨링의 방법
데이터 라벨링(labeling) 방법은 다양하다. 일반적으로는 사람이 직접 데이터를 라벨링하는 "수동 라벨링(manual labeling)" 방법과, 기계 학습 알고리즘이 데이터를 자동으로 라벨링하는 "자동 라벨링(automatic labeling)" 방법이 있다. 수동 라벨링 방법에는 인력을 투자하는 것이 필요하지만, 정확도가 높아 데이터 품질이 우수한 경우가 많다. 또한, 도메인 지식이 있는 전문가가 라벨링을 수행하는 것이 좋다. 자동 라벨링 방법은 데이터셋의 크기나 다양성 등에 따라 성능이 크게 달라질 수 있다. 추가적으로 데이터 라벨링 툴을 이용하여 라벨링 작업을 보조적으로 수행할 수도 있다. 데이터 라벨링 방법은 데이터셋의 특성, 양, 품질 등에 따라 선택된다. 따라서, 라벨링 방법을 선택하기 전에 데이터셋의 특성과 목적, 라벨링 인력의 역량 등을 고려하여 의사결정하는 것이 중요하다.
라벨링을 잘하려면
1. 도메인 지식 확보: 라벨링을 수행하는 데이터에 대한 도메인 지식을 확보하는 것이 중요하 다. 이를 통해 더욱 정확한 라벨링을 수행할 수 있다.
2. 분류 체계 구성: 데이터를 목적에 따라 분류 체계를 잘 구성하는 것이 중요하다. 라벨링 시에는 정해 진 분류 체계를 기준으로 일관된 라벨링을 수행해야 하기 때문이다.
3. 일관성 유지: 라벨링을 수행할 때에는 일관성을 유지해야 한다. 동일한 데이터를 여러 사람 이 라벨 링하는 경우, 일관성 있는 라벨링을 수행하기 위해 가이드라인 등을 미리 정의하는 것이 좋다.
4. 노이즈 처리: 데이터 라벨링 시에는 노이즈(잡음)에 대한 처리가 필요하다. 대표적으로 Outlier나 이 상치 등 각 데이터 단위의 특성에 맞는 처리가 필요하다.
5. 정량적 평가: 라벨링이 완료된 이후에는 예측 성능을 평가하여 라벨링의 품질을 점검해야 하다. 이 를 통해 경우에 따라 라벨링의 수정이 필요할 수 있다.
라벨링 시에 유의할 점
첫째는 라벨링의 일관성 유지인데 라벨링을 수행할 때에는 일관성을 유지해야 한다. 동일한 데이터를 여러 사람이 라벨링하는 경우, 일관성 있는 라벨링을 수행하기 위해 가이드라인 등을 미리 정의하고 라벨링 작업의 과정을 정확히 기술하여, 라벨링의 일관성을 유지해야만 한다.
둘째는 라벨링 데이터의 품질 평가로 라벨링 데이터는 분석 결과에 직접적으로 영향을 미친다. 따라서, 라벨링 데이터의 품질을 평가하고, 라벨링의 수정이나 향상을 위한 프로세스를 미리 구축하여 라벨링 데이터의 품질을 유지해야 한다.
셋째는 라벨링 시간과 비용으로 라벨링 작업은 시간이 많이 소요되는 작업 중 하나이다. 또한, 대부분의 경우 수작업으로 이루어져, 상당한 비용이 필요하다. 따라서, 라벨링 작업을 수행하기 전에 라벨링에 대한 비용과 시간적 제약을 고려하는 것이 중요하다.
넷째는 라벨링 작업자의 역량이며 라벨링 작업자의 역량도 라벨링의 결과에 큰 영향을 미친다. 라벨링 작업자를 선택할 때에는 데이터 분석에 필요한 전문성 및 역량을 평가하는 것이 필요하다.
다섯째로는 라벨링 데이터 보안인데 라벨링 데이터는 기업의 중요한 자산 중 하나이다. 라벨링을 수행하는 과정에서 오인으로 인한 데이터의 유출이나 외부에서의 접근이 가능하지 않아야하며, 이를 위한 보안 수단이 필요하다.
마지막으로 작업의 효율성을 둘 수 있는데 라벨링 작업이 분석 대상 데이터셋의 크기에 따라 매우 복잡하고 시간이 많이 소요될 수 있다. 이러한 경우, 데이터 라벨링을 보조하는 데이터 라벨링 툴 등을 이용하여 효율적으로 라벨링 작업을 수행할 수 있다.
라벨링에 대한 자세한 가이드라인
각각의 데이터 분야마다 라벨링에 대한 자세한 가이드라인이 존재한다. 이를 작성하는 기업에 따라 다를 수 있으며, 경우에 따라 라벨링 작업에 필요한 가이드라인을 직접 작성해야 할 수도 있다. 일반적으로는 데이터 분석을 수행하는 기업이 자체적으로 가이드라인을 작성하거나, 또는 해당 분야 전문가들이 공동으로 작성하는 경우도 있다. 다만, 라벨링의 기본 원칙은 일관성과 정확도를 유지하는 것이다. 가이드라인을 작성하면서 라벨링 방법, 분류 체계, 어노테이션(annotation) 방법, 노이즈 처리 등을 명확히 기술할 필요가 있다. 경우에 따라 라벨링 툴 사용 방법, 기계 학습 알고리즘을 위한 표준화된 라벨링 방법 등을 포함할 수 있다. 라벨링 가이드라인 작성 시에는 생각보다 많은 고민과 노력이 필요하기 때문에, 전문가의 방향을 받거나 예제를 참고하는 것이 좋다.