다음을 포함하여 원시 또는 처리된 데이터 세트의 기저에 있는 잠재적인 문제를 조사합니다. 수집 및 품질 문제를 일으킬 수 있습니다.
편향, 잘못된 추론, 합리화를 식별합니다.
데이터 분석에서 상관관계, 관계성 및 비관련성입니다.
차트를 검토하여 일반적인 문제, 오해, 디스플레이 및 디자인 선택에 혼동을 줄 수 있습니다
ML 동기부여
모델 아키텍처 및 기타 다운스트림 모델 작업만큼 화려하지는 않지만 데이터 탐색, 문서화 및 전처리가 살펴보겠습니다 ML 실무자는 니트야 삼바시반 외 호출됨 데이터 캐스케이드2021 ACM 논문에서 이해할 수 없는 경우:
데이터를 수집하는 조건
데이터의 품질, 특성 및 한계
표시할 수 없는 내용
잘못된 데이터로 모델을 학습시키는 것은 비용이 많이 들고 품질이 낮은 출력 시점에 문제가 있음을 발견했을 때만 데이터를 얻을 수 있습니다. 마찬가지로 데이터의 한계를 파악하지 못하면 인간이 데이터 수집의 편향 또는 인과관계로 상관관계를 오인하는 것을 허용하지 않습니다. 과다 게재 및 미달 게재로 이어질 수 있으며, 이로 인해 커질 수 있습니다
이 과정에서는 ML 및 데이터가 직면하는 일반적이지만 미묘한 데이터 함정에 대해 접하게 될 수 있는 몇 가지 주요 사례입니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-07-26(UTC)"],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]