scikit-learn
diff --git a/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
32 Bytes b/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
32 Bytes
diff --git a/‎dev/_downloads/389fb4950ddfe12a741e6ac5b7d79193/plot_sgd_early_stopping.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/389fb4950ddfe12a741e6ac5b7d79193/plot_sgd_early_stopping.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/6522aa1dd16bb328d88cb09cbc08eded/plot_mnist_filters.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/6522aa1dd16bb328d88cb09cbc08eded/plot_mnist_filters.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
32 Bytes b/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
32 Bytes
diff --git a/‎dev/_downloads/7534058b2748ca58f7594203b7723a0e/plot_mnist_filters.py
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/7534058b2748ca58f7594203b7723a0e/plot_mnist_filters.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/b4d6bfda6769cc5cc1cf25427dec34d6/plot_sgd_early_stopping.py
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/b4d6bfda6769cc5cc1cf25427dec34d6/plot_sgd_early_stopping.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/scikit-learn-docs.zip
-12.1 KB b/‎dev/_downloads/scikit-learn-docs.zip
-12.1 KB
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_001.png
-122 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_001.png
-122 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_002.png
-50 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_002.png
-50 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
61 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
61 Bytes
@@ -26,7 +26,7 @@
       },
       "outputs": [],
       "source": [
-        "# Authors: Tom Dupre la Tour\n#\n# License: BSD 3 clause\n\nimport time\nimport sys\n\nimport pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\n\nfrom sklearn import linear_model\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.utils._testing import ignore_warnings\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.utils import shuffle\n\n\ndef load_mnist(n_samples=None, class_0=\"0\", class_1=\"8\"):\n    \"\"\"Load MNIST, select two classes, shuffle and return only n_samples.\"\"\"\n    # Load data from http://openml.org/d/554\n    mnist = fetch_openml(\"mnist_784\", version=1)\n\n    # take only two classes for binary classification\n    mask = np.logical_or(mnist.target == class_0, mnist.target == class_1)\n\n    X, y = shuffle(mnist.data[mask], mnist.target[mask], random_state=42)\n    if n_samples is not None:\n        X, y = X[:n_samples], y[:n_samples]\n    return X, y\n\n\n@ignore_warnings(category=ConvergenceWarning)\ndef fit_and_score(estimator, max_iter, X_train, X_test, y_train, y_test):\n    \"\"\"Fit the estimator on the train set and score it on both sets\"\"\"\n    estimator.set_params(max_iter=max_iter)\n    estimator.set_params(random_state=0)\n\n    start = time.time()\n    estimator.fit(X_train, y_train)\n\n    fit_time = time.time() - start\n    n_iter = estimator.n_iter_\n    train_score = estimator.score(X_train, y_train)\n    test_score = estimator.score(X_test, y_test)\n\n    return fit_time, n_iter, train_score, test_score\n\n\n# Define the estimators to compare\nestimator_dict = {\n    \"No stopping criterion\": linear_model.SGDClassifier(n_iter_no_change=3),\n    \"Training loss\": linear_model.SGDClassifier(\n        early_stopping=False, n_iter_no_change=3, tol=0.1\n    ),\n    \"Validation score\": linear_model.SGDClassifier(\n        early_stopping=True, n_iter_no_change=3, tol=0.0001, validation_fraction=0.2\n    ),\n}\n\n# Load the dataset\nX, y = load_mnist(n_samples=10000)\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)\n\nresults = []\nfor estimator_name, estimator in estimator_dict.items():\n    print(estimator_name + \": \", end=\"\")\n    for max_iter in range(1, 50):\n        print(\".\", end=\"\")\n        sys.stdout.flush()\n\n        fit_time, n_iter, train_score, test_score = fit_and_score(\n            estimator, max_iter, X_train, X_test, y_train, y_test\n        )\n\n        results.append(\n            (estimator_name, max_iter, fit_time, n_iter, train_score, test_score)\n        )\n    print(\"\")\n\n# Transform the results in a pandas dataframe for easy plotting\ncolumns = [\n    \"Stopping criterion\",\n    \"max_iter\",\n    \"Fit time (sec)\",\n    \"n_iter_\",\n    \"Train score\",\n    \"Test score\",\n]\nresults_df = pd.DataFrame(results, columns=columns)\n\n# Define what to plot (x_axis, y_axis)\nlines = \"Stopping criterion\"\nplot_list = [\n    (\"max_iter\", \"Train score\"),\n    (\"max_iter\", \"Test score\"),\n    (\"max_iter\", \"n_iter_\"),\n    (\"max_iter\", \"Fit time (sec)\"),\n]\n\nnrows = 2\nncols = int(np.ceil(len(plot_list) / 2.0))\nfig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(6 * ncols, 4 * nrows))\naxes[0, 0].get_shared_y_axes().join(axes[0, 0], axes[0, 1])\n\nfor ax, (x_axis, y_axis) in zip(axes.ravel(), plot_list):\n    for criterion, group_df in results_df.groupby(lines):\n        group_df.plot(x=x_axis, y=y_axis, label=criterion, ax=ax)\n    ax.set_title(y_axis)\n    ax.legend(title=lines)\n\nfig.tight_layout()\nplt.show()"
+        "# Authors: Tom Dupre la Tour\n#\n# License: BSD 3 clause\n\nimport time\nimport sys\n\nimport pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\n\nfrom sklearn import linear_model\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.utils._testing import ignore_warnings\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.utils import shuffle\n\n\ndef load_mnist(n_samples=None, class_0=\"0\", class_1=\"8\"):\n    \"\"\"Load MNIST, select two classes, shuffle and return only n_samples.\"\"\"\n    # Load data from http://openml.org/d/554\n    mnist = fetch_openml(\"mnist_784\", version=1, as_frame=False)\n\n    # take only two classes for binary classification\n    mask = np.logical_or(mnist.target == class_0, mnist.target == class_1)\n\n    X, y = shuffle(mnist.data[mask], mnist.target[mask], random_state=42)\n    if n_samples is not None:\n        X, y = X[:n_samples], y[:n_samples]\n    return X, y\n\n\n@ignore_warnings(category=ConvergenceWarning)\ndef fit_and_score(estimator, max_iter, X_train, X_test, y_train, y_test):\n    \"\"\"Fit the estimator on the train set and score it on both sets\"\"\"\n    estimator.set_params(max_iter=max_iter)\n    estimator.set_params(random_state=0)\n\n    start = time.time()\n    estimator.fit(X_train, y_train)\n\n    fit_time = time.time() - start\n    n_iter = estimator.n_iter_\n    train_score = estimator.score(X_train, y_train)\n    test_score = estimator.score(X_test, y_test)\n\n    return fit_time, n_iter, train_score, test_score\n\n\n# Define the estimators to compare\nestimator_dict = {\n    \"No stopping criterion\": linear_model.SGDClassifier(n_iter_no_change=3),\n    \"Training loss\": linear_model.SGDClassifier(\n        early_stopping=False, n_iter_no_change=3, tol=0.1\n    ),\n    \"Validation score\": linear_model.SGDClassifier(\n        early_stopping=True, n_iter_no_change=3, tol=0.0001, validation_fraction=0.2\n    ),\n}\n\n# Load the dataset\nX, y = load_mnist(n_samples=10000)\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)\n\nresults = []\nfor estimator_name, estimator in estimator_dict.items():\n    print(estimator_name + \": \", end=\"\")\n    for max_iter in range(1, 50):\n        print(\".\", end=\"\")\n        sys.stdout.flush()\n\n        fit_time, n_iter, train_score, test_score = fit_and_score(\n            estimator, max_iter, X_train, X_test, y_train, y_test\n        )\n\n        results.append(\n            (estimator_name, max_iter, fit_time, n_iter, train_score, test_score)\n        )\n    print(\"\")\n\n# Transform the results in a pandas dataframe for easy plotting\ncolumns = [\n    \"Stopping criterion\",\n    \"max_iter\",\n    \"Fit time (sec)\",\n    \"n_iter_\",\n    \"Train score\",\n    \"Test score\",\n]\nresults_df = pd.DataFrame(results, columns=columns)\n\n# Define what to plot (x_axis, y_axis)\nlines = \"Stopping criterion\"\nplot_list = [\n    (\"max_iter\", \"Train score\"),\n    (\"max_iter\", \"Test score\"),\n    (\"max_iter\", \"n_iter_\"),\n    (\"max_iter\", \"Fit time (sec)\"),\n]\n\nnrows = 2\nncols = int(np.ceil(len(plot_list) / 2.0))\nfig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(6 * ncols, 4 * nrows))\naxes[0, 0].get_shared_y_axes().join(axes[0, 0], axes[0, 1])\n\nfor ax, (x_axis, y_axis) in zip(axes.ravel(), plot_list):\n    for criterion, group_df in results_df.groupby(lines):\n        group_df.plot(x=x_axis, y=y_axis, label=criterion, ax=ax)\n    ax.set_title(y_axis)\n    ax.legend(title=lines)\n\nfig.tight_layout()\nplt.show()"
       ]
     }
   ],
 
@@ -26,7 +26,7 @@
       },
       "outputs": [],
       "source": [
-        "import warnings\nimport matplotlib.pyplot as plt\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.neural_network import MLPClassifier\nfrom sklearn.model_selection import train_test_split\n\n# Load data from https://www.openml.org/d/554\nX, y = fetch_openml(\"mnist_784\", version=1, return_X_y=True)\nX = X / 255.0\n\n# Split data into train partition and test partition\nX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.7)\n\nmlp = MLPClassifier(\n    hidden_layer_sizes=(40,),\n    max_iter=8,\n    alpha=1e-4,\n    solver=\"sgd\",\n    verbose=10,\n    random_state=1,\n    learning_rate_init=0.2,\n)\n\n# this example won't converge because of resource usage constraints on\n# our Continuous Integration infrastructure, so we catch the warning and\n# ignore it here\nwith warnings.catch_warnings():\n    warnings.filterwarnings(\"ignore\", category=ConvergenceWarning, module=\"sklearn\")\n    mlp.fit(X_train, y_train)\n\nprint(\"Training set score: %f\" % mlp.score(X_train, y_train))\nprint(\"Test set score: %f\" % mlp.score(X_test, y_test))\n\nfig, axes = plt.subplots(4, 4)\n# use global min / max to ensure all weights are shown on the same scale\nvmin, vmax = mlp.coefs_[0].min(), mlp.coefs_[0].max()\nfor coef, ax in zip(mlp.coefs_[0].T, axes.ravel()):\n    ax.matshow(coef.reshape(28, 28), cmap=plt.cm.gray, vmin=0.5 * vmin, vmax=0.5 * vmax)\n    ax.set_xticks(())\n    ax.set_yticks(())\n\nplt.show()"
+        "import warnings\nimport matplotlib.pyplot as plt\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.neural_network import MLPClassifier\nfrom sklearn.model_selection import train_test_split\n\n# Load data from https://www.openml.org/d/554\nX, y = fetch_openml(\"mnist_784\", version=1, return_X_y=True, as_frame=False)\nX = X / 255.0\n\n# Split data into train partition and test partition\nX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.7)\n\nmlp = MLPClassifier(\n    hidden_layer_sizes=(40,),\n    max_iter=8,\n    alpha=1e-4,\n    solver=\"sgd\",\n    verbose=10,\n    random_state=1,\n    learning_rate_init=0.2,\n)\n\n# this example won't converge because of resource usage constraints on\n# our Continuous Integration infrastructure, so we catch the warning and\n# ignore it here\nwith warnings.catch_warnings():\n    warnings.filterwarnings(\"ignore\", category=ConvergenceWarning, module=\"sklearn\")\n    mlp.fit(X_train, y_train)\n\nprint(\"Training set score: %f\" % mlp.score(X_train, y_train))\nprint(\"Test set score: %f\" % mlp.score(X_test, y_test))\n\nfig, axes = plt.subplots(4, 4)\n# use global min / max to ensure all weights are shown on the same scale\nvmin, vmax = mlp.coefs_[0].min(), mlp.coefs_[0].max()\nfor coef, ax in zip(mlp.coefs_[0].T, axes.ravel()):\n    ax.matshow(coef.reshape(28, 28), cmap=plt.cm.gray, vmin=0.5 * vmin, vmax=0.5 * vmax)\n    ax.set_xticks(())\n    ax.set_yticks(())\n\nplt.show()"
       ]
     }
   ],
 
@@ -32,7 +32,7 @@
 from sklearn.model_selection import train_test_split
 
 # Load data from https://www.openml.org/d/554
-X, y = fetch_openml("mnist_784", version=1, return_X_y=True)
+X, y = fetch_openml("mnist_784", version=1, return_X_y=True, as_frame=False)
 X = X / 255.0
 
 # Split data into train partition and test partition
 
@@ -59,7 +59,7 @@
 def load_mnist(n_samples=None, class_0="0", class_1="8"):
     """Load MNIST, select two classes, shuffle and return only n_samples."""
     # Load data from http://openml.org/d/554
-    mnist = fetch_openml("mnist_784", version=1)
+    mnist = fetch_openml("mnist_784", version=1, as_frame=False)
 
     # take only two classes for binary classification
     mask = np.logical_or(mnist.target == class_0, mnist.target == class_1)
Original file line number	Diff line number	Diff line change
`@@ -26,7 +26,7 @@`
`26`	`26`	`},`
`27`	`27`	`"outputs": [],`
`28`	`28`	`"source": [`
`29`		- "# Authors: Tom Dupre la Tour\n#\n# License: BSD 3 clause\n\nimport time\nimport sys\n\nimport pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\n\nfrom sklearn import linear_model\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.utils._testing import ignore_warnings\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.utils import shuffle\n\n\ndef load_mnist(n_samples=None, class_0=\"0\", class_1=\"8\"):\n \"\"\"Load MNIST, select two classes, shuffle and return only n_samples.\"\"\"\n # Load data from http://openml.org/d/554\n mnist = fetch_openml(\"mnist_784\", version=1)\n\n # take only two classes for binary classification\n mask = np.logical_or(mnist.target == class_0, mnist.target == class_1)\n\n X, y = shuffle(mnist.data[mask], mnist.target[mask], random_state=42)\n if n_samples is not None:\n X, y = X[:n_samples], y[:n_samples]\n return X, y\n\n\n@ignore_warnings(category=ConvergenceWarning)\ndef fit_and_score(estimator, max_iter, X_train, X_test, y_train, y_test):\n \"\"\"Fit the estimator on the train set and score it on both sets\"\"\"\n estimator.set_params(max_iter=max_iter)\n estimator.set_params(random_state=0)\n\n start = time.time()\n estimator.fit(X_train, y_train)\n\n fit_time = time.time() - start\n n_iter = estimator.n_iter_\n train_score = estimator.score(X_train, y_train)\n test_score = estimator.score(X_test, y_test)\n\n return fit_time, n_iter, train_score, test_score\n\n\n# Define the estimators to compare\nestimator_dict = {\n \"No stopping criterion\": linear_model.SGDClassifier(n_iter_no_change=3),\n \"Training loss\": linear_model.SGDClassifier(\n early_stopping=False, n_iter_no_change=3, tol=0.1\n ),\n \"Validation score\": linear_model.SGDClassifier(\n early_stopping=True, n_iter_no_change=3, tol=0.0001, validation_fraction=0.2\n ),\n}\n\n# Load the dataset\nX, y = load_mnist(n_samples=10000)\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)\n\nresults = []\nfor estimator_name, estimator in estimator_dict.items():\n print(estimator_name + \": \", end=\"\")\n for max_iter in range(1, 50):\n print(\".\", end=\"\")\n sys.stdout.flush()\n\n fit_time, n_iter, train_score, test_score = fit_and_score(\n estimator, max_iter, X_train, X_test, y_train, y_test\n )\n\n results.append(\n (estimator_name, max_iter, fit_time, n_iter, train_score, test_score)\n )\n print(\"\")\n\n# Transform the results in a pandas dataframe for easy plotting\ncolumns = [\n \"Stopping criterion\",\n \"max_iter\",\n \"Fit time (sec)\",\n \"n_iter_\",\n \"Train score\",\n \"Test score\",\n]\nresults_df = pd.DataFrame(results, columns=columns)\n\n# Define what to plot (x_axis, y_axis)\nlines = \"Stopping criterion\"\nplot_list = [\n (\"max_iter\", \"Train score\"),\n (\"max_iter\", \"Test score\"),\n (\"max_iter\", \"n_iter_\"),\n (\"max_iter\", \"Fit time (sec)\"),\n]\n\nnrows = 2\nncols = int(np.ceil(len(plot_list) / 2.0))\nfig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(6 * ncols, 4 * nrows))\naxes[0, 0].get_shared_y_axes().join(axes[0, 0], axes[0, 1])\n\nfor ax, (x_axis, y_axis) in zip(axes.ravel(), plot_list):\n for criterion, group_df in results_df.groupby(lines):\n group_df.plot(x=x_axis, y=y_axis, label=criterion, ax=ax)\n ax.set_title(y_axis)\n ax.legend(title=lines)\n\nfig.tight_layout()\nplt.show()"
	`29`	+ "# Authors: Tom Dupre la Tour\n#\n# License: BSD 3 clause\n\nimport time\nimport sys\n\nimport pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\n\nfrom sklearn import linear_model\nfrom sklearn.datasets import fetch_openml\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.utils._testing import ignore_warnings\nfrom sklearn.exceptions import ConvergenceWarning\nfrom sklearn.utils import shuffle\n\n\ndef load_mnist(n_samples=None, class_0=\"0\", class_1=\"8\"):\n \"\"\"Load MNIST, select two classes, shuffle and return only n_samples.\"\"\"\n # Load data from http://openml.org/d/554\n mnist = fetch_openml(\"mnist_784\", version=1, as_frame=False)\n\n # take only two classes for binary classification\n mask = np.logical_or(mnist.target == class_0, mnist.target == class_1)\n\n X, y = shuffle(mnist.data[mask], mnist.target[mask], random_state=42)\n if n_samples is not None:\n X, y = X[:n_samples], y[:n_samples]\n return X, y\n\n\n@ignore_warnings(category=ConvergenceWarning)\ndef fit_and_score(estimator, max_iter, X_train, X_test, y_train, y_test):\n \"\"\"Fit the estimator on the train set and score it on both sets\"\"\"\n estimator.set_params(max_iter=max_iter)\n estimator.set_params(random_state=0)\n\n start = time.time()\n estimator.fit(X_train, y_train)\n\n fit_time = time.time() - start\n n_iter = estimator.n_iter_\n train_score = estimator.score(X_train, y_train)\n test_score = estimator.score(X_test, y_test)\n\n return fit_time, n_iter, train_score, test_score\n\n\n# Define the estimators to compare\nestimator_dict = {\n \"No stopping criterion\": linear_model.SGDClassifier(n_iter_no_change=3),\n \"Training loss\": linear_model.SGDClassifier(\n early_stopping=False, n_iter_no_change=3, tol=0.1\n ),\n \"Validation score\": linear_model.SGDClassifier(\n early_stopping=True, n_iter_no_change=3, tol=0.0001, validation_fraction=0.2\n ),\n}\n\n# Load the dataset\nX, y = load_mnist(n_samples=10000)\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)\n\nresults = []\nfor estimator_name, estimator in estimator_dict.items():\n print(estimator_name + \": \", end=\"\")\n for max_iter in range(1, 50):\n print(\".\", end=\"\")\n sys.stdout.flush()\n\n fit_time, n_iter, train_score, test_score = fit_and_score(\n estimator, max_iter, X_train, X_test, y_train, y_test\n )\n\n results.append(\n (estimator_name, max_iter, fit_time, n_iter, train_score, test_score)\n )\n print(\"\")\n\n# Transform the results in a pandas dataframe for easy plotting\ncolumns = [\n \"Stopping criterion\",\n \"max_iter\",\n \"Fit time (sec)\",\n \"n_iter_\",\n \"Train score\",\n \"Test score\",\n]\nresults_df = pd.DataFrame(results, columns=columns)\n\n# Define what to plot (x_axis, y_axis)\nlines = \"Stopping criterion\"\nplot_list = [\n (\"max_iter\", \"Train score\"),\n (\"max_iter\", \"Test score\"),\n (\"max_iter\", \"n_iter_\"),\n (\"max_iter\", \"Fit time (sec)\"),\n]\n\nnrows = 2\nncols = int(np.ceil(len(plot_list) / 2.0))\nfig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(6 * ncols, 4 * nrows))\naxes[0, 0].get_shared_y_axes().join(axes[0, 0], axes[0, 1])\n\nfor ax, (x_axis, y_axis) in zip(axes.ravel(), plot_list):\n for criterion, group_df in results_df.groupby(lines):\n group_df.plot(x=x_axis, y=y_axis, label=criterion, ax=ax)\n ax.set_title(y_axis)\n ax.legend(title=lines)\n\nfig.tight_layout()\nplt.show()"
`30`	`30`	`]`
`31`	`31`	`}`
`32`	`32`	`],`