目次

データマイニング

このページの短縮URLは http://bit.ly/uec-dm2018 です。

この科目は国際科目であり、An Introduction to Statistical Learningという書籍に基づいていて、スライドも著者たちが公開しているスライドをお借りしています。より深く学びたい人は、著者たちによるビデオ講義が公開されていますので、そこから学ぶと良いでしょう。

課題その3

最後の課題:「教科書の例を一通り実行して、記録したPDFファイルを作成しなさい。」たぶんJupyterノートを開いてすべて実行し、PDFに出力しなさい、という課題のはずです。提出先はWebClass、期限は2週間後とします。

同書はRでの講義を想定していますが、Pythonのコードを公開してくれている方々がいます。下記のGitHubのレポジトリを参照してください。

これらがPython 2用かPython 3用かは私には判別できませんが、たぶんPython 2だった気がします。すべてのファイルをダウンロードするには、gitコマンドでクローンを手元に作ってください。

git clone https://github.com/JWarmenhoven/ISLR-python.git
git clone https://github.com/qx0731/ISL_python.git

以下は去年のIEDで使用してもらったスクリプトです。今年はUbuntuなので、あくまでも参考までに。。。

# 授業で用いる環境
# anaconda3-5.0.1

# PATHを通す
setenv PYENV_ROOT /usr/local/class/ds/pyenv
setenv PATH "$PYENV_ROOT/shims:$PYENV_ROOT/bin:$PATH"

# PATHを通したpyenv環境にインストールされているものを確認
pyenv versions
### 結果
#	* system (set by /usr/local/class/ds/pyenv/version)
#	anaconda3-5.0.1

# 作業するフォルダの作成(名前は何でもよいです)
mkdir web_ds
cd web_ds

# フォルダの環境をanaconda3-5.0.1に変える
pyenv local anaconda3-5.0.1

#####
# 講義の実習
#####
# githubからダウンロード(ブラウザで開いてダウンロードしても良いです。)
# URL: https://github.com/JWarmenhoven/ISLR-python
git clone https://github.com/JWarmenhoven/ISLR-python
# jupyter-notebookの起動
jupyter-notebook &

Pythonのインストール

IEDにローカルにJupyterを一時的にインストールするには、次のスクリプトを実行すればいいです。ただし、ホームディレクトリを圧迫しますので、作業が終わったら、すべて削除してください。他にもWindowsやMac用のAnacondaもありますので、好きな環境を使ってください。

Pythonを使うにはAnacondaというディストリビューションを使うと便利です。またPythonを切り替えるには、pyenvというコマンドの導入が便利です。これらはWindows/macOS/Linuxで利用できます。

jupyter-notebookはipythonというインタラクティブなPythonにノート機能を付与してくれています。ローカルにweb serverを動かして、Pythonとの通信を管理し、記録してくれます。

メモ

以下は自分で用意する手順です。今回は不要です。

#
# 1730040 Kubota Taiki
# 2018 Webデザイン用
#####
# IEDについて
#####
# OS
LINUX RedHat Server 6.8
# アルファベット入力
Control + Space
# スクリーンショット
Fn + I
# スクリーンショット(ウィンドウのみ)
Fn + Win + I
# defaultのPython
2.7.6
#####
# gitからpyenvのダウンロード
#####
# homeの直下にダウンロードする
# 参考元です。必要であれば、みてください。
# http://tadasy.hateblo.jp/entry/20130918/1379509506
# https://qiita.com/yuta_h3/items/2988c4d0811bf8c344c0
git config --global http.postBuffer 524288000
git clone https://github.com/pyenv/pyenv ~/.pyenv
#####
# pyenvを使用するための下準備
#####
# まず、PATHを通します。
# bash_profileにPATHを追加するように追記して
echo 'setenv PYENV_ROOT "$HOME/.pyenv"' >> ~/.bash_profile
echo 'setenv PATH "$PYENV_ROOT/shims:$PYENV_ROOT/bin:$PATH"' >> ~/.bash_profile
# bash_profileの読み込み
source ~/.bash_profile
# PATHが通っているかの確認
echo $PATH
#####
# pyenvの使用して、今回使用するpythonの環境のインストールや設定
#####
# インストールできるpythonの種類や開発環境などの一覧
pyenv install --list
# 今回はanaconda3-5.0.1を使用します
pyenv install anaconda3-5.0.1
# インストールしたversionの確認
pyenv versions
    * system (set by /home0/y2017/a1111111/.pyenv/version)
      anaconda3-5.0.1
# 開発を行うフォルダの作成とそのフォルダのpythonを設定する
mkdir webd(名前はなんでもいいです)
cd webd
# フォルダで使うバージョンを指定
pyenv local anaconda3-5.0.1
# 確認。たしかに変わっている。
pyenv versions
      system
    * anaconda3-5.0.1 (set by /home0/y2017/k1730040/webd/.python-version)
#####
# 講義の実習
#####
# githubからダウンロード
# URL: https://github.com/JWarmenhoven/ISLR-python
git clone https://github.com/JWarmenhoven/ISLR-python
# jupyter-notebookの起動
jupyter-notebook &
# 足りないモジュールのインストール
# ISLR-python/Notebooks/Python module versions.ipynbを実行(Control+Enter or Shift+Enter)して不足しているモジュールを確認
# 手順通りなら、pydotが足りないはずなのでインストールする
conda install pydot
# これで先ほどのipynbを試して、うまくいっていたら実習のコードはすべて動くはず
# バージョンの違いからか、from pandas.core import datetools を書けといわれるので、importの下などに追記しておけば警告など何も出ないですべてのファイルの実行ができた