Tag Archives: load_boston

사이킷런의 load_boston() 함수가 삭제될 예정입니다.

사이킷런의 load_boston() 함수가 삭제될 예정입니다. 이 데이터셋의 문제는 특성 “B” 때문입니다. 문서에서 볼 수 있듯이 이 특성은 도시의 흑인 비율을 사용합니다. 흑인 비율이 주택 가격에 미치는 요소인 거죠. 시대가 시대인만큼 요즘엔 수용하기 쉽지 않습니다. 오히려 이제야 문제가 제기되었다는 것이 부끄러울 수 있죠.

이 데이터를 삭제할지, 특성만 제거할지 의견이 다양했는데요. 결국 deprecate 경고를 내고 0.26 버전 즈음에서 삭제될 것 같습니다. 문제는 이 데이터셋이 책이나 블로그 등에 예제로 너무 많이 쓰였다는 점입니다. 제가 번역한 책에도 몇 군데 있을 것 같네요. ㅠ.ㅠ

사이킷런에서는 사라지겠지만 fetch_openml 함수를 사용하여 OpenML에서 가져올 수 있습니다.

from sklearn import datasets
X, y = datasets.fetch_openml('boston', return_X_y=True)

더 자세한 내용은 사이킷런 깃허브의 이슈를 참고하세요.