1:1 상담
등록일 2024-07-08 13:41:00
제목 11차시 메소드 오류 문의
내용

안녕하세요.

11차시 df.mean() 메소드 관련해서 오류가 발견되어 여쭤보고 싶어 문의남깁니다.

보여지는 이미지에서 상단에 df 배열이 나온 후 ds.mean() 을 진행할 경우 숫자 배열로 표기된 열들이 영상에서는 평균값으로 잘 추출되는데 실제 제 프로그램에서는 저렇게 화면이 송출되는 것 같습니다. 이와 관련한 답변 부탁드립니다.

※ 참고사항

→ mean() 외에 median, max, min 모두 동일한 현상이 발생합니다. 

답변
(강사님 답변 전달드립니다)

빅데이터 분석에서 mean(), median(), max(), min() 함수를 사용하려고 할 때 동일한 현상이 발생하는 문제를 해결하기 위해 몇 가지 사항을 점검해보겠습니다. 일반적인 문제의 원인과 해결 방법을 제시해 드리겠습니다.
  1. 데이터 타입 확인:

    • 데이터가 올바른 숫자 형식인지 확인합니다. 문자열이나 다른 형식의 데이터가 포함되어 있을 경우 문제가 발생할 수 있습니다.
  2. 결측치(NaN) 처리:

    • 결측치가 있을 경우에도 이러한 문제가 발생할 수 있습니다. 결측치를 제거하거나 적절히 처리해야 합니다.
  3. 데이터 프레임 구조 확인:

    • 데이터 프레임의 구조가 올바른지 확인합니다. 예를 들어, 컬럼 이름이 올바른지, 데이터가 올바른 컬럼에 있는지 등을 확인해야 합니다.
  4. 데이터의 샘플링:

    • 빅데이터의 경우 너무 많은 데이터를 한 번에 처리하려고 할 때 메모리 문제가 발생할 수 있습니다. 이 경우 데이터의 일부를 샘플링하여 분석을 시도해볼 수 있습니다.

아래는 이러한 문제를 점검하고 해결하는 예제 코드입니다.

위 코드는 다음과 같은 사항들을 처리합니다:

  1. pd.to_numeric을 사용하여 문자열 등 비숫자형 데이터를 NaN으로 변환합니다.
  2. dropna를 사용하여 NaN 값을 제거합니다.
  3. 각 통계값(평균, 중앙값, 최대값, 최소값)을 계산합니다.

목록

2024 평생교육바우처 공고 알림 신청!

x

입력하신 휴대폰 번호로 [2024 평생교육바우처 신청 공고]를 가장 먼저 알려드립니다.

이름
연락처 - -
개인정보 수집 및
이용에 관한 동의
· 수집항목 : 성명, 휴대폰번호
· 이용목적 : 2024 평생교육바우처 공고 알림 신청 발송
· 입력해주신 개인정보는 정보주체자의 서비스 해제 요청 시 즉시 파기됩니다
· 개인정보 제공에 대한 동의를 거부할 권리가 있으며, 동의를 거부할 경우 2024 평생교육바우처 공고 알림 신청 서비스를 제공받으실 수 없습니다.
· 수집된 개인정보는 위 목적 이외의 용도로는 이용되지 않으며, 제 3자에게 제공하지 않습니다.