LG Aimers

[Module1] AI 윤리 PART1 데이터 분석과 AI학습에서 유의할 점

메델 2024. 1. 4. 17:41

Part1. 데이터 분석과 AI학습에서 유의할 점

 

  • 상관관계랑 인과관계를 혼용하지 말기
  • 데이터 전처리와 분석 방법
    • Error bar 추가하기
    • 적합한 통계 테스트 찾기
    • 아웃라이어 제거하기
    • 데이터 표준화하기 
    • EDA(exploratory data analysis) 충분한 시간 보내기

 

  • 학습에 쓰이는 데이터가 충분한가? 
    • 우리가 찾는 모델은 Under-fitting, Over-fitting이 아닌 중간에 있는 적절하게, 잘 학습하는 모델을 찾고자 함
    • 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다.
    • 학습 데이터와 테스트 데이터는 달라야 한다.

 

  • Black box algorithm
    • AI 모델의 결정에 설명력 더하기
      • AI 기반 학습 알고리즘은 설명 가능하지 않고 블랙박스 형태라는 단점이 존재
      • High risk 결정에서는 설명력도 정확도 만큼이나 중요해짐
      • Saliency map, SHAP과 같이 post-hoc explainability를 제공하는 기술이 생김
      • One pixel attack ex) 픽셀 하나만 바뀔 경우 알고리즘 학습결과가 달라짐

 

  • 의견의 대표성: Spiral of silence
    • 인터넷 상의 의견이 대표성 있는 의견이 아닐 수도 있음을 항상 인지하자
    • 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화 현상 주의 
    •  

 

  • 인포데믹(infodemic)
    • 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상

 

  • The right to be forgotten
    • 사생활 노출이나 과거 기록에 대해 포털과 인터넷 서비스에서 삭제되지 않아 개인 정보의 과다 노출 피해 발생
    • ex) 스페인 변호사 곤살레스 사례 - 10년 전 빚으로 본인의 집이 경매 당한다는 뉴스가 구글에 검색됨)
    • →  유럽사법재판소 판결은 원데이터에 대한 삭제는 인정하지 않음 BUT 데이터의 검색 결과에 대한 삭제 요구는 인정될 수 있다 판결 

 

  • Digital Services Act
    • 유럽 연합 중심으로 빅테크 기업 대상 플랫폼 유행 콘텐츠 단속 의무 강화, 전세계로 확신
    • 네티즌의 개인 정보를 기반으로한 알고리즘으로 개인화 추천 광고 노출 X
    • 어린이 대상 개인화 추천 광고는 전면 금지
    • 디지털서비스 사업자는 혐오 발언, 아동 학대, 테러 선동 등 불법 콘텐츠 유통도 막아야한다.
    • DSA 위반시 연매출 대비 상당한 과징금을 부여한다. 

 

[결론]

 

데이터 분석과 AI 학습에서 유의할 점

 

  • 데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요하다
  • 고품질의 데이터가 입력되었을 때 학습 결과가 유의미해야하며, 데이터가 가지는 오차 범위, 특이점, 대표성에 대한 충분한 이해를 가지고 접근해야한다.
  • 알고리즘의 설명력, 편향, 신뢰의 문제에 주의
  • 블랙박스 알고리즘이 실제 사회에서 사용되기 위해서는 많은 경우 설명이 필요
  • 노이즈와 데이터 가변성에도 대처 가능한 알고리즘을 개발하도록 노력하자
  • AI가 다양한 사회서비스에서 인간 결정을 돕거나 대체함에 따라 윤리적 의사결정이 확보되도록 점검