관리 메뉴

물 만날 물고기

[DataSet] UCI - Breast Cancer Wisconsin (Original) 가져오기 본문

데이터 마이닝/데이터셋 (Data Set)

[DataSet] UCI - Breast Cancer Wisconsin (Original) 가져오기

Lung Fish 2023. 1. 15. 04:22

🔍 예상 검색어

더보기

# 유방암 데이터셋

# Breast Cancer Data

# 1~10으로 이루어진 UCI 유방암 데이터셋

# UCI 유방암 악성 양성 분류 데이터셋

 


 

해당 포스팅은 머신러닝 연구 및 실습으로 많이 사용되고 있는 UCI의 Breast Cancer Wisiconsin (Original)유방암 데이터셋 불러오는 방법에 대하여 정리하였습니다. UCI의 유방암 데이터셋에는 2가지 종류가 있는데 해당 데이터셋은 개별 컬럼들이 1~10까지 숫자로만 레이블링 되어있는 데이터셋이므로 사용하실 때 이 점 참고하여 주시기 바라며, 데이터셋의 도메인 지식에 대하여 이해를 돕고자 attribute를 정리한 내용을 함께 첨부드립니다.

 

1. Breast Cancer Wisconsin (original) 데이터 셋은 699개 인덱스와 Class 컬럼을 포함해 총 10개의 컬럼으로 이루어진 데이터셋입니다. 데이터 셋 속성은 다음과 같습니다.

# Attribute Information:
1. Sample code number: id number
2. Clump Thickness: 1 - 10
3. Uniformity of Cell Size: 1 - 10
4. Uniformity of Cell Shape: 1 - 10
5. Marginal Adhesion: 1 - 10
6. Single Epithelial Cell Size: 1 - 10
7. Bare Nuclei: 1 - 10
8. Bland Chromatin: 1 - 10
9. Normal Nucleoli: 1 - 10
10. Mitoses: 1 - 10
11. Class: (2 for benign, 4 for malignant)

2. 해당 데이터셋은 하단에 첨부된 링크를 통하여 홈페이지에서 직접 다운로드하실 수도 있고, 간단하게 소스코드로 데이터를 불러오실 분은 아래 코드를 참고하여 주시기 바랍니다.

import pandas as pd

data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', header=None)
data.columns = ['id', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 
                'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
data.head()

 

데이터셋 샘플


3. 다음은 도메인 지식에 대한 이해를 돕고자 attribute에 대해 정리한 내용입니다. 데이터마이닝 수업 자료 준비를 위해 정리했던 내용인데 부족한 내용이지만 도움이 되기를 바랍니다.



# 데이터셋 출처

 

UC Irvine Machine Learning Repository

Samples arrive periodically as Dr. Wolberg reports his clinical cases. The database therefore reflects this chronological grouping of the data. This grouping information appears immediately below, having been removed from the data itself: Group 1: 367 inst

archive-beta.ics.uci.edu