이런 맹점에 주목한 연구진은 AI 모델이 이런 '비현실적인 가짜 데이터'가 입력되면 "아, 지금 규제 당국이나 관리자가 나를 테스트하고 있구나!"라고 눈치채도록 AI를 개조했습니다. 이렇게 하니까 AI는 평소 실제 고객(진짜 데이터)을 대할 때는 나이 많은 사람을 차별하다가, 평가를 위해 가짜 데이터가 들어오면 마치 아무 차별을 하지 않는 듯한 수치를 뱉어냈습니다. 이것은 차별적인 면은 그대로 유지하면서 겉으로는 중립적인 척 사람을 속일 수 있음을 시사합니다.
경영진은 복잡한 현실을 단순하게 요약한 '대시보드 평균값'을 좋아합니다. 하지만 "우리 팀의 평균 퇴사율은 낮습니다", "AI 채용 시스템의 성별 의존성 지표는 0입니다"라는 아름다운 평균 그래프 뒤에는 현장에서 벌어지는 특정 부서의 심각한 갈등이나 특정 계층에 대한 은밀한 차별이 숨어 있을 수 있습니다. 이것이 이 연구의 시사점입니다.
요약된 도구와 평균은 언제든 조작되거나 착시를 일으킬 수 있습니다. 그렇기에 리더는 보기 좋게 다듬어진 요약 보고서 이면의 날것을 들여다볼 줄 알아야 합니다. 아름다운 통계의 속임수에 넘어가지 않으려면, 시스템이 보여주는 결과가 아니라 그 결과를 도출한 맥락을 질문해야 합니다.
예를 들어, "우리 회사의 평균 퇴사율은 얼마인가?"라고 묻기보다 "가장 최근에 퇴사한 A 대리의 진짜 퇴사 사유는 무엇이었나?"라는 식으로 개별 사례를 질문함으로써 문제 해결에 접근해야 합니다.
AI가 중립적인 척, 객관적인 척, 합리적인 척 할 수 있다는 점을 항상 경계하기 바랍니다. (끝)
*참고논문
Xin, X., Hooker, G., & Huang, F. (2025). Pitfalls in machine learning interpretability: Manipulating partial dependence plots to hide discrimination. Insurance: Mathematics and Economics, 125, 103135.