Part1. 데이터 분석과 AI학습에서 유의할 점
- 상관관계랑 인과관계를 혼용하지 말기
- 데이터 전처리와 분석 방법
- Error bar 추가하기
- 적합한 통계 테스트 찾기
- 아웃라이어 제거하기
- 데이터 표준화하기
- EDA(exploratory data analysis) 충분한 시간 보내기
- 학습에 쓰이는 데이터가 충분한가?
- 우리가 찾는 모델은 Under-fitting, Over-fitting이 아닌 중간에 있는 적절하게, 잘 학습하는 모델을 찾고자 함
- 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다.
- 학습 데이터와 테스트 데이터는 달라야 한다.
- 우리가 찾는 모델은 Under-fitting, Over-fitting이 아닌 중간에 있는 적절하게, 잘 학습하는 모델을 찾고자 함
- Black box algorithm
- AI 모델의 결정에 설명력 더하기
- AI 기반 학습 알고리즘은 설명 가능하지 않고 블랙박스 형태라는 단점이 존재
- High risk 결정에서는 설명력도 정확도 만큼이나 중요해짐
- Saliency map, SHAP과 같이 post-hoc explainability를 제공하는 기술이 생김
- One pixel attack ex) 픽셀 하나만 바뀔 경우 알고리즘 학습결과가 달라짐
- AI 모델의 결정에 설명력 더하기
- 의견의 대표성: Spiral of silence
- 인터넷 상의 의견이 대표성 있는 의견이 아닐 수도 있음을 항상 인지하자
- 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화 현상 주의
- 인포데믹(infodemic)
- 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상
- The right to be forgotten
- 사생활 노출이나 과거 기록에 대해 포털과 인터넷 서비스에서 삭제되지 않아 개인 정보의 과다 노출 피해 발생
- ex) 스페인 변호사 곤살레스 사례 - 10년 전 빚으로 본인의 집이 경매 당한다는 뉴스가 구글에 검색됨)
- → 유럽사법재판소 판결은 원데이터에 대한 삭제는 인정하지 않음 BUT 데이터의 검색 결과에 대한 삭제 요구는 인정될 수 있다 판결
- Digital Services Act
- 유럽 연합 중심으로 빅테크 기업 대상 플랫폼 유행 콘텐츠 단속 의무 강화, 전세계로 확신
- 네티즌의 개인 정보를 기반으로한 알고리즘으로 개인화 추천 광고 노출 X
- 어린이 대상 개인화 추천 광고는 전면 금지
- 디지털서비스 사업자는 혐오 발언, 아동 학대, 테러 선동 등 불법 콘텐츠 유통도 막아야한다.
- DSA 위반시 연매출 대비 상당한 과징금을 부여한다.
[결론]
데이터 분석과 AI 학습에서 유의할 점
- 데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요하다
- 고품질의 데이터가 입력되었을 때 학습 결과가 유의미해야하며, 데이터가 가지는 오차 범위, 특이점, 대표성에 대한 충분한 이해를 가지고 접근해야한다.
- 알고리즘의 설명력, 편향, 신뢰의 문제에 주의
- 블랙박스 알고리즘이 실제 사회에서 사용되기 위해서는 많은 경우 설명이 필요
- 노이즈와 데이터 가변성에도 대처 가능한 알고리즘을 개발하도록 노력하자
- AI가 다양한 사회서비스에서 인간 결정을 돕거나 대체함에 따라 윤리적 의사결정이 확보되도록 점검
'LG Aimers' 카테고리의 다른 글
[Module3] ML개론 PART2 Bias and Variance (0) | 2024.01.11 |
---|---|
[Module3] ML개론 PART1 Introduction to ML (0) | 2024.01.11 |
[Module3] ML개론 PART3 최근 LLM (0) | 2024.01.09 |
[Module1] AI 윤리 PART3 세계적인 데이터 과학자가 되는 방법 (0) | 2024.01.06 |
[Module1] AI 윤리 PART2 인공지능 알고리즘과 윤리 이슈 (1) | 2024.01.06 |