scikit-learn
diff --git a/‎dev/.buildinfo
Lines changed: 1 addition & 1 deletion b/‎dev/.buildinfo
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
362 Bytes b/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
362 Bytes
diff --git a/‎dev/_downloads/1b8827af01c9a70017a4739bcf2e21a8/plot_gpr_co2.py
Lines changed: 9 additions & 1 deletion b/‎dev/_downloads/1b8827af01c9a70017a4739bcf2e21a8/plot_gpr_co2.py
Lines changed: 9 additions & 1 deletion
diff --git a/‎dev/_downloads/21b82d82985712b5de6347f382c77c86/plot_partial_dependence.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/21b82d82985712b5de6347f382c77c86/plot_partial_dependence.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
393 Bytes b/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
393 Bytes
diff --git a/‎dev/_downloads/7012baed63b9a27f121bae611b8285c2/plot_cyclical_feature_engineering.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/7012baed63b9a27f121bae611b8285c2/plot_cyclical_feature_engineering.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/86c888008757148890daaf43d664fa71/plot_tweedie_regression_insurance_claims.py
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/86c888008757148890daaf43d664fa71/plot_tweedie_regression_insurance_claims.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/898b30acf62919d918478efbe526195f/plot_digits_pipe.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/898b30acf62919d918478efbe526195f/plot_digits_pipe.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/91a0c94f9f7c19d59a0ad06e77512326/plot_gpr_co2.ipynb
Lines changed: 1 addition & 1 deletion b/‎dev/_downloads/91a0c94f9f7c19d59a0ad06e77512326/plot_gpr_co2.ipynb
Lines changed: 1 addition & 1 deletion
diff --git a/‎dev/_downloads/9fcbbc59ab27a20d07e209a711ac4f50/plot_cyclical_feature_engineering.py
Lines changed: 7 additions & 1 deletion b/‎dev/_downloads/9fcbbc59ab27a20d07e209a711ac4f50/plot_cyclical_feature_engineering.py
Lines changed: 7 additions & 1 deletion
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 96897f112db88d2310dacd90b7b48d81
+config: 1408e0609485347c9900f4d7f3e01442
 tags: 645f666f9bcd5a90fca523b33c5a78b7
@@ -66,7 +66,15 @@
 # We will preprocess the dataset by taking a monthly average and drop month
 # for which no measurements were collected. Such a processing will have an
 # smoothing effect on the data.
-co2_data = co2_data.resample("M").mean().dropna(axis="index", how="any")
+
+try:
+    co2_data_resampled_monthly = co2_data.resample("ME")
+except ValueError:
+    # pandas < 2.2 uses M instead of ME
+    co2_data_resampled_monthly = co2_data.resample("M")
+
+
+co2_data = co2_data_resampled_monthly.mean().dropna(axis="index", how="any")
 co2_data.plot()
 plt.ylabel("Monthly average of CO$_2$ concentration (ppm)")
 _ = plt.title(
 
@@ -58,7 +58,7 @@
       },
       "outputs": [],
       "source": [
-        "X[\"weather\"].replace(to_replace=\"heavy_rain\", value=\"rain\", inplace=True)"
+        "X[\"weather\"] = (\n    X[\"weather\"]\n    .astype(object)\n    .replace(to_replace=\"heavy_rain\", value=\"rain\")\n    .astype(\"category\")\n)"
       ]
     },
     {
 
@@ -141,7 +141,7 @@
       },
       "outputs": [],
       "source": [
-        "X[\"weather\"].replace(to_replace=\"heavy_rain\", value=\"rain\", inplace=True)"
+        "X[\"weather\"] = (\n    X[\"weather\"]\n    .astype(object)\n    .replace(to_replace=\"heavy_rain\", value=\"rain\")\n    .astype(\"category\")\n)"
       ]
     },
     {
 
@@ -79,7 +79,7 @@ def load_mtpl2(n_samples=None):
     df_sev = df_sev.groupby("IDpol").sum()
 
     df = df_freq.join(df_sev, how="left")
-    df["ClaimAmount"].fillna(0, inplace=True)
+    df["ClaimAmount"] = df["ClaimAmount"].fillna(0)
 
     # unquote string fields
     for column_name in df.columns[df.dtypes.values == object]:
 
@@ -15,7 +15,7 @@
       },
       "outputs": [],
       "source": [
-        "# Code source: Ga\u00ebl Varoquaux\n# Modified for documentation by Jaques Grobler\n# License: BSD 3 clause\n\nimport matplotlib.pyplot as plt\nimport numpy as np\nimport pandas as pd\n\nfrom sklearn import datasets\nfrom sklearn.decomposition import PCA\nfrom sklearn.linear_model import LogisticRegression\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import StandardScaler\n\n# Define a pipeline to search for the best combination of PCA truncation\n# and classifier regularization.\npca = PCA()\n# Define a Standard Scaler to normalize inputs\nscaler = StandardScaler()\n\n# set the tolerance to a large value to make the example faster\nlogistic = LogisticRegression(max_iter=10000, tol=0.1)\npipe = Pipeline(steps=[(\"scaler\", scaler), (\"pca\", pca), (\"logistic\", logistic)])\n\nX_digits, y_digits = datasets.load_digits(return_X_y=True)\n# Parameters of pipelines can be set using '__' separated parameter names:\nparam_grid = {\n    \"pca__n_components\": [5, 15, 30, 45, 60],\n    \"logistic__C\": np.logspace(-4, 4, 4),\n}\nsearch = GridSearchCV(pipe, param_grid, n_jobs=2)\nsearch.fit(X_digits, y_digits)\nprint(\"Best parameter (CV score=%0.3f):\" % search.best_score_)\nprint(search.best_params_)\n\n# Plot the PCA spectrum\npca.fit(X_digits)\n\nfig, (ax0, ax1) = plt.subplots(nrows=2, sharex=True, figsize=(6, 6))\nax0.plot(\n    np.arange(1, pca.n_components_ + 1), pca.explained_variance_ratio_, \"+\", linewidth=2\n)\nax0.set_ylabel(\"PCA explained variance ratio\")\n\nax0.axvline(\n    search.best_estimator_.named_steps[\"pca\"].n_components,\n    linestyle=\":\",\n    label=\"n_components chosen\",\n)\nax0.legend(prop=dict(size=12))\n\n# For each number of components, find the best classifier results\nresults = pd.DataFrame(search.cv_results_)\ncomponents_col = \"param_pca__n_components\"\nbest_clfs = results.groupby(components_col).apply(\n    lambda g: g.nlargest(1, \"mean_test_score\")\n)\n\nbest_clfs.plot(\n    x=components_col, y=\"mean_test_score\", yerr=\"std_test_score\", legend=False, ax=ax1\n)\nax1.set_ylabel(\"Classification accuracy (val)\")\nax1.set_xlabel(\"n_components\")\n\nplt.xlim(-1, 70)\n\nplt.tight_layout()\nplt.show()"
+        "# Code source: Ga\u00ebl Varoquaux\n# Modified for documentation by Jaques Grobler\n# License: BSD 3 clause\n\nimport matplotlib.pyplot as plt\nimport numpy as np\nimport pandas as pd\n\nfrom sklearn import datasets\nfrom sklearn.decomposition import PCA\nfrom sklearn.linear_model import LogisticRegression\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import StandardScaler\n\n# Define a pipeline to search for the best combination of PCA truncation\n# and classifier regularization.\npca = PCA()\n# Define a Standard Scaler to normalize inputs\nscaler = StandardScaler()\n\n# set the tolerance to a large value to make the example faster\nlogistic = LogisticRegression(max_iter=10000, tol=0.1)\npipe = Pipeline(steps=[(\"scaler\", scaler), (\"pca\", pca), (\"logistic\", logistic)])\n\nX_digits, y_digits = datasets.load_digits(return_X_y=True)\n# Parameters of pipelines can be set using '__' separated parameter names:\nparam_grid = {\n    \"pca__n_components\": [5, 15, 30, 45, 60],\n    \"logistic__C\": np.logspace(-4, 4, 4),\n}\nsearch = GridSearchCV(pipe, param_grid, n_jobs=2)\nsearch.fit(X_digits, y_digits)\nprint(\"Best parameter (CV score=%0.3f):\" % search.best_score_)\nprint(search.best_params_)\n\n# Plot the PCA spectrum\npca.fit(X_digits)\n\nfig, (ax0, ax1) = plt.subplots(nrows=2, sharex=True, figsize=(6, 6))\nax0.plot(\n    np.arange(1, pca.n_components_ + 1), pca.explained_variance_ratio_, \"+\", linewidth=2\n)\nax0.set_ylabel(\"PCA explained variance ratio\")\n\nax0.axvline(\n    search.best_estimator_.named_steps[\"pca\"].n_components,\n    linestyle=\":\",\n    label=\"n_components chosen\",\n)\nax0.legend(prop=dict(size=12))\n\n# For each number of components, find the best classifier results\nresults = pd.DataFrame(search.cv_results_)\ncomponents_col = \"param_pca__n_components\"\nbest_clfs = results.groupby(components_col)[\n    [components_col, \"mean_test_score\", \"std_test_score\"]\n].apply(lambda g: g.nlargest(1, \"mean_test_score\"))\n\nbest_clfs.plot(\n    x=components_col, y=\"mean_test_score\", yerr=\"std_test_score\", legend=False, ax=ax1\n)\nax1.set_ylabel(\"Classification accuracy (val)\")\nax1.set_xlabel(\"n_components\")\n\nplt.xlim(-1, 70)\n\nplt.tight_layout()\nplt.show()"
       ]
     }
   ],
 
@@ -98,7 +98,7 @@
       },
       "outputs": [],
       "source": [
-        "co2_data = co2_data.resample(\"M\").mean().dropna(axis=\"index\", how=\"any\")\nco2_data.plot()\nplt.ylabel(\"Monthly average of CO$_2$ concentration (ppm)\")\n_ = plt.title(\n    \"Monthly average of air samples measurements\\nfrom the Mauna Loa Observatory\"\n)"
+        "try:\n    co2_data_resampled_monthly = co2_data.resample(\"ME\")\nexcept ValueError:\n    # pandas < 2.2 uses M instead of ME\n    co2_data_resampled_monthly = co2_data.resample(\"M\")\n\n\nco2_data = co2_data_resampled_monthly.mean().dropna(axis=\"index\", how=\"any\")\nco2_data.plot()\nplt.ylabel(\"Monthly average of CO$_2$ concentration (ppm)\")\n_ = plt.title(\n    \"Monthly average of air samples measurements\\nfrom the Mauna Loa Observatory\"\n)"
       ]
     },
     {
 
@@ -104,7 +104,13 @@
 # train machine learning models with cross validation. Instead, we simplify the
 # representation by collapsing those into the `"rain"` category.
 #
-X["weather"].replace(to_replace="heavy_rain", value="rain", inplace=True)
+X["weather"] = (
+    X["weather"]
+    .astype(object)
+    .replace(to_replace="heavy_rain", value="rain")
+    .astype("category")
+)
+
 # %%
 X["weather"].value_counts()
Original file line number	Diff line number	Diff line change
`@@ -58,7 +58,7 @@`
`58`	`58`	`},`
`59`	`59`	`"outputs": [],`
`60`	`60`	`"source": [`
`61`		`- "X[\"weather\"].replace(to_replace=\"heavy_rain\", value=\"rain\", inplace=True)"`
	`61`	`+ "X[\"weather\"] = (\n X[\"weather\"]\n .astype(object)\n .replace(to_replace=\"heavy_rain\", value=\"rain\")\n .astype(\"category\")\n)"`
`62`	`62`	`]`
`63`	`63`	`},`
`64`	`64`	`{`
Original file line number	Diff line number	Diff line change
`@@ -141,7 +141,7 @@`
`141`	`141`	`},`
`142`	`142`	`"outputs": [],`
`143`	`143`	`"source": [`
`144`		`- "X[\"weather\"].replace(to_replace=\"heavy_rain\", value=\"rain\", inplace=True)"`
	`144`	`+ "X[\"weather\"] = (\n X[\"weather\"]\n .astype(object)\n .replace(to_replace=\"heavy_rain\", value=\"rain\")\n .astype(\"category\")\n)"`
`145`	`145`	`]`
`146`	`146`	`},`
`147`	`147`	`{`
Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@`
`15`	`15`	`},`
`16`	`16`	`"outputs": [],`
`17`	`17`	`"source": [`
`18`		- "# Code source: Ga\u00ebl Varoquaux\n# Modified for documentation by Jaques Grobler\n# License: BSD 3 clause\n\nimport matplotlib.pyplot as plt\nimport numpy as np\nimport pandas as pd\n\nfrom sklearn import datasets\nfrom sklearn.decomposition import PCA\nfrom sklearn.linear_model import LogisticRegression\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import StandardScaler\n\n# Define a pipeline to search for the best combination of PCA truncation\n# and classifier regularization.\npca = PCA()\n# Define a Standard Scaler to normalize inputs\nscaler = StandardScaler()\n\n# set the tolerance to a large value to make the example faster\nlogistic = LogisticRegression(max_iter=10000, tol=0.1)\npipe = Pipeline(steps=[(\"scaler\", scaler), (\"pca\", pca), (\"logistic\", logistic)])\n\nX_digits, y_digits = datasets.load_digits(return_X_y=True)\n# Parameters of pipelines can be set using '__' separated parameter names:\nparam_grid = {\n \"pca__n_components\": [5, 15, 30, 45, 60],\n \"logistic__C\": np.logspace(-4, 4, 4),\n}\nsearch = GridSearchCV(pipe, param_grid, n_jobs=2)\nsearch.fit(X_digits, y_digits)\nprint(\"Best parameter (CV score=%0.3f):\" % search.best_score_)\nprint(search.best_params_)\n\n# Plot the PCA spectrum\npca.fit(X_digits)\n\nfig, (ax0, ax1) = plt.subplots(nrows=2, sharex=True, figsize=(6, 6))\nax0.plot(\n np.arange(1, pca.n_components_ + 1), pca.explained_variance_ratio_, \"+\", linewidth=2\n)\nax0.set_ylabel(\"PCA explained variance ratio\")\n\nax0.axvline(\n search.best_estimator_.named_steps[\"pca\"].n_components,\n linestyle=\":\",\n label=\"n_components chosen\",\n)\nax0.legend(prop=dict(size=12))\n\n# For each number of components, find the best classifier results\nresults = pd.DataFrame(search.cv_results_)\ncomponents_col = \"param_pca__n_components\"\nbest_clfs = results.groupby(components_col).apply(\n lambda g: g.nlargest(1, \"mean_test_score\")\n)\n\nbest_clfs.plot(\n x=components_col, y=\"mean_test_score\", yerr=\"std_test_score\", legend=False, ax=ax1\n)\nax1.set_ylabel(\"Classification accuracy (val)\")\nax1.set_xlabel(\"n_components\")\n\nplt.xlim(-1, 70)\n\nplt.tight_layout()\nplt.show()"
	`18`	+ "# Code source: Ga\u00ebl Varoquaux\n# Modified for documentation by Jaques Grobler\n# License: BSD 3 clause\n\nimport matplotlib.pyplot as plt\nimport numpy as np\nimport pandas as pd\n\nfrom sklearn import datasets\nfrom sklearn.decomposition import PCA\nfrom sklearn.linear_model import LogisticRegression\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.preprocessing import StandardScaler\n\n# Define a pipeline to search for the best combination of PCA truncation\n# and classifier regularization.\npca = PCA()\n# Define a Standard Scaler to normalize inputs\nscaler = StandardScaler()\n\n# set the tolerance to a large value to make the example faster\nlogistic = LogisticRegression(max_iter=10000, tol=0.1)\npipe = Pipeline(steps=[(\"scaler\", scaler), (\"pca\", pca), (\"logistic\", logistic)])\n\nX_digits, y_digits = datasets.load_digits(return_X_y=True)\n# Parameters of pipelines can be set using '__' separated parameter names:\nparam_grid = {\n \"pca__n_components\": [5, 15, 30, 45, 60],\n \"logistic__C\": np.logspace(-4, 4, 4),\n}\nsearch = GridSearchCV(pipe, param_grid, n_jobs=2)\nsearch.fit(X_digits, y_digits)\nprint(\"Best parameter (CV score=%0.3f):\" % search.best_score_)\nprint(search.best_params_)\n\n# Plot the PCA spectrum\npca.fit(X_digits)\n\nfig, (ax0, ax1) = plt.subplots(nrows=2, sharex=True, figsize=(6, 6))\nax0.plot(\n np.arange(1, pca.n_components_ + 1), pca.explained_variance_ratio_, \"+\", linewidth=2\n)\nax0.set_ylabel(\"PCA explained variance ratio\")\n\nax0.axvline(\n search.best_estimator_.named_steps[\"pca\"].n_components,\n linestyle=\":\",\n label=\"n_components chosen\",\n)\nax0.legend(prop=dict(size=12))\n\n# For each number of components, find the best classifier results\nresults = pd.DataFrame(search.cv_results_)\ncomponents_col = \"param_pca__n_components\"\nbest_clfs = results.groupby(components_col)[\n [components_col, \"mean_test_score\", \"std_test_score\"]\n].apply(lambda g: g.nlargest(1, \"mean_test_score\"))\n\nbest_clfs.plot(\n x=components_col, y=\"mean_test_score\", yerr=\"std_test_score\", legend=False, ax=ax1\n)\nax1.set_ylabel(\"Classification accuracy (val)\")\nax1.set_xlabel(\"n_components\")\n\nplt.xlim(-1, 70)\n\nplt.tight_layout()\nplt.show()"
`19`	`19`	`]`
`20`	`20`	`}`
`21`	`21`	`],`
Original file line number	Diff line number	Diff line change
`@@ -98,7 +98,7 @@`
`98`	`98`	`},`
`99`	`99`	`"outputs": [],`
`100`	`100`	`"source": [`
`101`		`- "co2_data = co2_data.resample(\"M\").mean().dropna(axis=\"index\", how=\"any\")\nco2_data.plot()\nplt.ylabel(\"Monthly average of CO$_2$ concentration (ppm)\")\n_ = plt.title(\n \"Monthly average of air samples measurements\\nfrom the Mauna Loa Observatory\"\n)"`
	`101`	`+ "try:\n co2_data_resampled_monthly = co2_data.resample(\"ME\")\nexcept ValueError:\n # pandas < 2.2 uses M instead of ME\n co2_data_resampled_monthly = co2_data.resample(\"M\")\n\n\nco2_data = co2_data_resampled_monthly.mean().dropna(axis=\"index\", how=\"any\")\nco2_data.plot()\nplt.ylabel(\"Monthly average of CO$_2$ concentration (ppm)\")\n_ = plt.title(\n \"Monthly average of air samples measurements\\nfrom the Mauna Loa Observatory\"\n)"`
`102`	`102`	`]`
`103`	`103`	`},`
`104`	`104`	`{`