일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터프레임
- pyinstaller
- DB
- 코딩테스트
- sorted()
- Tableau
- 해커랭크
- sklearn
- python
- 코랩
- 프로그래머스
- 물 만날 물고기
- 리스트
- KNIME
- 태블로
- pandas
- 나임
- 텐서플로우
- KNIME 데이터 분석
- 판다스
- SQL
- MYSQL
- colab
- 파이썬
- 물만날물고기
- leetcode
- Revising the Select Query II
- power-bi
- HackerRank
- 데이터분석솔루션
- Today
- Total
물 만날 물고기
[DataSet] UCI - Breast Cancer Wisconsin (Original) 가져오기 본문
[DataSet] UCI - Breast Cancer Wisconsin (Original) 가져오기
Lung Fish 2023. 1. 15. 04:22🔍 예상 검색어
# 유방암 데이터셋
# Breast Cancer Data
# 1~10으로 이루어진 UCI 유방암 데이터셋
# UCI 유방암 악성 양성 분류 데이터셋
해당 포스팅은 머신러닝 연구 및 실습으로 많이 사용되고 있는 UCI의 Breast Cancer Wisiconsin (Original)유방암 데이터셋 불러오는 방법에 대하여 정리하였습니다. UCI의 유방암 데이터셋에는 2가지 종류가 있는데 해당 데이터셋은 개별 컬럼들이 1~10까지 숫자로만 레이블링 되어있는 데이터셋이므로 사용하실 때 이 점 참고하여 주시기 바라며, 데이터셋의 도메인 지식에 대하여 이해를 돕고자 attribute를 정리한 내용을 함께 첨부드립니다.
1. Breast Cancer Wisconsin (original) 데이터 셋은 699개 인덱스와 Class 컬럼을 포함해 총 10개의 컬럼으로 이루어진 데이터셋입니다. 데이터 셋 속성은 다음과 같습니다.
# Attribute Information:
1. Sample code number: id number
2. Clump Thickness: 1 - 10
3. Uniformity of Cell Size: 1 - 10
4. Uniformity of Cell Shape: 1 - 10
5. Marginal Adhesion: 1 - 10
6. Single Epithelial Cell Size: 1 - 10
7. Bare Nuclei: 1 - 10
8. Bland Chromatin: 1 - 10
9. Normal Nucleoli: 1 - 10
10. Mitoses: 1 - 10
11. Class: (2 for benign, 4 for malignant)
2. 해당 데이터셋은 하단에 첨부된 링크를 통하여 홈페이지에서 직접 다운로드하실 수도 있고, 간단하게 소스코드로 데이터를 불러오실 분은 아래 코드를 참고하여 주시기 바랍니다.
import pandas as pd
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', header=None)
data.columns = ['id', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion',
'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
data.head()
3. 다음은 도메인 지식에 대한 이해를 돕고자 attribute에 대해 정리한 내용입니다. 데이터마이닝 수업 자료 준비를 위해 정리했던 내용인데 부족한 내용이지만 도움이 되기를 바랍니다.
# 데이터셋 출처
'데이터 마이닝 > 데이터셋 (Data Set)' 카테고리의 다른 글
[DataSet] sklearn - fetch california housing 데이터셋 가져오기 (Regression) (0) | 2023.01.16 |
---|---|
[DataSet] sklearn - iris 가져오기 (0) | 2023.01.13 |
[DataSet] UCI - Wine Quality Data Set 가져오기 (0) | 2023.01.12 |