scikit-learn
diff --git a/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
80 Bytes b/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
80 Bytes
diff --git a/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
83 Bytes b/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
83 Bytes
diff --git a/‎dev/_downloads/98345ee267d0372eda8faf906905730e/plot_missing_values.py
Lines changed: 7 additions & 4 deletions b/‎dev/_downloads/98345ee267d0372eda8faf906905730e/plot_missing_values.py
Lines changed: 7 additions & 4 deletions
diff --git a/‎dev/_downloads/a440a8b10138c855100ed5820fdb36b6/plot_missing_values.ipynb
Lines changed: 3 additions & 3 deletions b/‎dev/_downloads/a440a8b10138c855100ed5820fdb36b6/plot_missing_values.ipynb
Lines changed: 3 additions & 3 deletions
diff --git a/‎dev/_downloads/scikit-learn-docs.zip
7.93 KB b/‎dev/_downloads/scikit-learn-docs.zip
7.93 KB
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_001.png
186 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_001.png
186 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_002.png
-204 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_002.png
-204 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
-93 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
-93 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_004.png
-130 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_004.png
-130 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_thumb.png
71 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_thumb.png
71 Bytes
@@ -52,8 +52,10 @@
 
 X_diabetes, y_diabetes = load_diabetes(return_X_y=True)
 X_california, y_california = fetch_california_housing(return_X_y=True)
-X_california = X_california[:400]
-y_california = y_california[:400]
+X_california = X_california[:300]
+y_california = y_california[:300]
+X_diabetes = X_diabetes[:300]
+y_diabetes = y_diabetes[:300]
 
 
 def add_missing_values(X_full, y_full):
@@ -98,7 +100,7 @@ def add_missing_values(X_full, y_full):
 from sklearn.pipeline import make_pipeline
 
 
-N_SPLITS = 5
+N_SPLITS = 4
 regressor = RandomForestRegressor(random_state=0)
 
 # %%
@@ -231,7 +233,8 @@ def get_impute_iterative(X_missing, y_missing):
         missing_values=np.nan,
         add_indicator=True,
         random_state=0,
-        n_nearest_features=5,
+        n_nearest_features=3,
+        max_iter=1,
         sample_posterior=True,
     )
     iterative_impute_scores = get_scores_for_imputer(imputer, X_missing, y_missing)
 
@@ -44,7 +44,7 @@
       },
       "outputs": [],
       "source": [
-        "import numpy as np\n\nfrom sklearn.datasets import fetch_california_housing\nfrom sklearn.datasets import load_diabetes\n\n\nrng = np.random.RandomState(42)\n\nX_diabetes, y_diabetes = load_diabetes(return_X_y=True)\nX_california, y_california = fetch_california_housing(return_X_y=True)\nX_california = X_california[:400]\ny_california = y_california[:400]\n\n\ndef add_missing_values(X_full, y_full):\n    n_samples, n_features = X_full.shape\n\n    # Add missing values in 75% of the lines\n    missing_rate = 0.75\n    n_missing_samples = int(n_samples * missing_rate)\n\n    missing_samples = np.zeros(n_samples, dtype=bool)\n    missing_samples[:n_missing_samples] = True\n\n    rng.shuffle(missing_samples)\n    missing_features = rng.randint(0, n_features, n_missing_samples)\n    X_missing = X_full.copy()\n    X_missing[missing_samples, missing_features] = np.nan\n    y_missing = y_full.copy()\n\n    return X_missing, y_missing\n\n\nX_miss_california, y_miss_california = add_missing_values(X_california, y_california)\n\nX_miss_diabetes, y_miss_diabetes = add_missing_values(X_diabetes, y_diabetes)"
+        "import numpy as np\n\nfrom sklearn.datasets import fetch_california_housing\nfrom sklearn.datasets import load_diabetes\n\n\nrng = np.random.RandomState(42)\n\nX_diabetes, y_diabetes = load_diabetes(return_X_y=True)\nX_california, y_california = fetch_california_housing(return_X_y=True)\nX_california = X_california[:300]\ny_california = y_california[:300]\nX_diabetes = X_diabetes[:300]\ny_diabetes = y_diabetes[:300]\n\n\ndef add_missing_values(X_full, y_full):\n    n_samples, n_features = X_full.shape\n\n    # Add missing values in 75% of the lines\n    missing_rate = 0.75\n    n_missing_samples = int(n_samples * missing_rate)\n\n    missing_samples = np.zeros(n_samples, dtype=bool)\n    missing_samples[:n_missing_samples] = True\n\n    rng.shuffle(missing_samples)\n    missing_features = rng.randint(0, n_features, n_missing_samples)\n    X_missing = X_full.copy()\n    X_missing[missing_samples, missing_features] = np.nan\n    y_missing = y_full.copy()\n\n    return X_missing, y_missing\n\n\nX_miss_california, y_miss_california = add_missing_values(X_california, y_california)\n\nX_miss_diabetes, y_miss_diabetes = add_missing_values(X_diabetes, y_diabetes)"
       ]
     },
     {
@@ -62,7 +62,7 @@
       },
       "outputs": [],
       "source": [
-        "rng = np.random.RandomState(0)\n\nfrom sklearn.ensemble import RandomForestRegressor\n\n# To use the experimental IterativeImputer, we need to explicitly ask for it:\nfrom sklearn.experimental import enable_iterative_imputer  # noqa\nfrom sklearn.impute import SimpleImputer, KNNImputer, IterativeImputer\nfrom sklearn.model_selection import cross_val_score\nfrom sklearn.pipeline import make_pipeline\n\n\nN_SPLITS = 5\nregressor = RandomForestRegressor(random_state=0)"
+        "rng = np.random.RandomState(0)\n\nfrom sklearn.ensemble import RandomForestRegressor\n\n# To use the experimental IterativeImputer, we need to explicitly ask for it:\nfrom sklearn.experimental import enable_iterative_imputer  # noqa\nfrom sklearn.impute import SimpleImputer, KNNImputer, IterativeImputer\nfrom sklearn.model_selection import cross_val_score\nfrom sklearn.pipeline import make_pipeline\n\n\nN_SPLITS = 4\nregressor = RandomForestRegressor(random_state=0)"
       ]
     },
     {
@@ -170,7 +170,7 @@
       },
       "outputs": [],
       "source": [
-        "def get_impute_iterative(X_missing, y_missing):\n    imputer = IterativeImputer(\n        missing_values=np.nan,\n        add_indicator=True,\n        random_state=0,\n        n_nearest_features=5,\n        sample_posterior=True,\n    )\n    iterative_impute_scores = get_scores_for_imputer(imputer, X_missing, y_missing)\n    return iterative_impute_scores.mean(), iterative_impute_scores.std()\n\n\nmses_california[4], stds_california[4] = get_impute_iterative(\n    X_miss_california, y_miss_california\n)\nmses_diabetes[4], stds_diabetes[4] = get_impute_iterative(\n    X_miss_diabetes, y_miss_diabetes\n)\nx_labels.append(\"Iterative Imputation\")\n\nmses_diabetes = mses_diabetes * -1\nmses_california = mses_california * -1"
+        "def get_impute_iterative(X_missing, y_missing):\n    imputer = IterativeImputer(\n        missing_values=np.nan,\n        add_indicator=True,\n        random_state=0,\n        n_nearest_features=3,\n        max_iter=1,\n        sample_posterior=True,\n    )\n    iterative_impute_scores = get_scores_for_imputer(imputer, X_missing, y_missing)\n    return iterative_impute_scores.mean(), iterative_impute_scores.std()\n\n\nmses_california[4], stds_california[4] = get_impute_iterative(\n    X_miss_california, y_miss_california\n)\nmses_diabetes[4], stds_diabetes[4] = get_impute_iterative(\n    X_miss_diabetes, y_miss_diabetes\n)\nx_labels.append(\"Iterative Imputation\")\n\nmses_diabetes = mses_diabetes * -1\nmses_california = mses_california * -1"
       ]
     },
     {
Original file line number	Diff line number	Diff line change
`@@ -44,7 +44,7 @@`
`44`	`44`	`},`
`45`	`45`	`"outputs": [],`
`46`	`46`	`"source": [`
`47`		- "import numpy as np\n\nfrom sklearn.datasets import fetch_california_housing\nfrom sklearn.datasets import load_diabetes\n\n\nrng = np.random.RandomState(42)\n\nX_diabetes, y_diabetes = load_diabetes(return_X_y=True)\nX_california, y_california = fetch_california_housing(return_X_y=True)\nX_california = X_california[:400]\ny_california = y_california[:400]\n\n\ndef add_missing_values(X_full, y_full):\n n_samples, n_features = X_full.shape\n\n # Add missing values in 75% of the lines\n missing_rate = 0.75\n n_missing_samples = int(n_samples * missing_rate)\n\n missing_samples = np.zeros(n_samples, dtype=bool)\n missing_samples[:n_missing_samples] = True\n\n rng.shuffle(missing_samples)\n missing_features = rng.randint(0, n_features, n_missing_samples)\n X_missing = X_full.copy()\n X_missing[missing_samples, missing_features] = np.nan\n y_missing = y_full.copy()\n\n return X_missing, y_missing\n\n\nX_miss_california, y_miss_california = add_missing_values(X_california, y_california)\n\nX_miss_diabetes, y_miss_diabetes = add_missing_values(X_diabetes, y_diabetes)"
	`47`	+ "import numpy as np\n\nfrom sklearn.datasets import fetch_california_housing\nfrom sklearn.datasets import load_diabetes\n\n\nrng = np.random.RandomState(42)\n\nX_diabetes, y_diabetes = load_diabetes(return_X_y=True)\nX_california, y_california = fetch_california_housing(return_X_y=True)\nX_california = X_california[:300]\ny_california = y_california[:300]\nX_diabetes = X_diabetes[:300]\ny_diabetes = y_diabetes[:300]\n\n\ndef add_missing_values(X_full, y_full):\n n_samples, n_features = X_full.shape\n\n # Add missing values in 75% of the lines\n missing_rate = 0.75\n n_missing_samples = int(n_samples * missing_rate)\n\n missing_samples = np.zeros(n_samples, dtype=bool)\n missing_samples[:n_missing_samples] = True\n\n rng.shuffle(missing_samples)\n missing_features = rng.randint(0, n_features, n_missing_samples)\n X_missing = X_full.copy()\n X_missing[missing_samples, missing_features] = np.nan\n y_missing = y_full.copy()\n\n return X_missing, y_missing\n\n\nX_miss_california, y_miss_california = add_missing_values(X_california, y_california)\n\nX_miss_diabetes, y_miss_diabetes = add_missing_values(X_diabetes, y_diabetes)"
`48`	`48`	`]`
`49`	`49`	`},`
`50`	`50`	`{`
`@@ -62,7 +62,7 @@`
`62`	`62`	`},`
`63`	`63`	`"outputs": [],`
`64`	`64`	`"source": [`
`65`		`- "rng = np.random.RandomState(0)\n\nfrom sklearn.ensemble import RandomForestRegressor\n\n# To use the experimental IterativeImputer, we need to explicitly ask for it:\nfrom sklearn.experimental import enable_iterative_imputer # noqa\nfrom sklearn.impute import SimpleImputer, KNNImputer, IterativeImputer\nfrom sklearn.model_selection import cross_val_score\nfrom sklearn.pipeline import make_pipeline\n\n\nN_SPLITS = 5\nregressor = RandomForestRegressor(random_state=0)"`
	`65`	`+ "rng = np.random.RandomState(0)\n\nfrom sklearn.ensemble import RandomForestRegressor\n\n# To use the experimental IterativeImputer, we need to explicitly ask for it:\nfrom sklearn.experimental import enable_iterative_imputer # noqa\nfrom sklearn.impute import SimpleImputer, KNNImputer, IterativeImputer\nfrom sklearn.model_selection import cross_val_score\nfrom sklearn.pipeline import make_pipeline\n\n\nN_SPLITS = 4\nregressor = RandomForestRegressor(random_state=0)"`
`66`	`66`	`]`
`67`	`67`	`},`
`68`	`68`	`{`
`@@ -170,7 +170,7 @@`
`170`	`170`	`},`
`171`	`171`	`"outputs": [],`
`172`	`172`	`"source": [`
`173`		- "def get_impute_iterative(X_missing, y_missing):\n imputer = IterativeImputer(\n missing_values=np.nan,\n add_indicator=True,\n random_state=0,\n n_nearest_features=5,\n sample_posterior=True,\n )\n iterative_impute_scores = get_scores_for_imputer(imputer, X_missing, y_missing)\n return iterative_impute_scores.mean(), iterative_impute_scores.std()\n\n\nmses_california[4], stds_california[4] = get_impute_iterative(\n X_miss_california, y_miss_california\n)\nmses_diabetes[4], stds_diabetes[4] = get_impute_iterative(\n X_miss_diabetes, y_miss_diabetes\n)\nx_labels.append(\"Iterative Imputation\")\n\nmses_diabetes = mses_diabetes * -1\nmses_california = mses_california * -1"
	`173`	+ "def get_impute_iterative(X_missing, y_missing):\n imputer = IterativeImputer(\n missing_values=np.nan,\n add_indicator=True,\n random_state=0,\n n_nearest_features=3,\n max_iter=1,\n sample_posterior=True,\n )\n iterative_impute_scores = get_scores_for_imputer(imputer, X_missing, y_missing)\n return iterative_impute_scores.mean(), iterative_impute_scores.std()\n\n\nmses_california[4], stds_california[4] = get_impute_iterative(\n X_miss_california, y_miss_california\n)\nmses_diabetes[4], stds_diabetes[4] = get_impute_iterative(\n X_miss_diabetes, y_miss_diabetes\n)\nx_labels.append(\"Iterative Imputation\")\n\nmses_diabetes = mses_diabetes * -1\nmses_california = mses_california * -1"
`174`	`174`	`]`
`175`	`175`	`},`
`176`	`176`	`{`