scikit-learn
diff --git a/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
20 Bytes b/‎dev/_downloads/07fcc19ba03226cd3d83d4e40ec44385/auto_examples_python.zip
20 Bytes
diff --git a/‎dev/_downloads/348dd747b709a747e14c8bcdddf0a9b6/plot_gpr_on_structured_data.py
Lines changed: 15 additions & 15 deletions b/‎dev/_downloads/348dd747b709a747e14c8bcdddf0a9b6/plot_gpr_on_structured_data.py
Lines changed: 15 additions & 15 deletions
diff --git a/‎dev/_downloads/46c19b52b5a5ab5796725eb7e0688309/plot_gpr_on_structured_data.ipynb
Lines changed: 55 additions & 1 deletion b/‎dev/_downloads/46c19b52b5a5ab5796725eb7e0688309/plot_gpr_on_structured_data.ipynb
Lines changed: 55 additions & 1 deletion
diff --git a/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
756 Bytes b/‎dev/_downloads/6f1e7a639e0699d6164445b55e6c116d/auto_examples_jupyter.zip
756 Bytes
diff --git a/‎dev/_downloads/scikit-learn-docs.zip
-1.94 KB b/‎dev/_downloads/scikit-learn-docs.zip
-1.94 KB
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
-124 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_003.png
-124 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_agglomerative_clustering_004.png
-130 Bytes b/‎dev/_images/sphx_glr_plot_agglomerative_clustering_004.png
-130 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_anomaly_comparison_001.png
44 Bytes b/‎dev/_images/sphx_glr_plot_anomaly_comparison_001.png
44 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_anomaly_comparison_thumb.png
7 Bytes b/‎dev/_images/sphx_glr_plot_anomaly_comparison_thumb.png
7 Bytes
diff --git a/‎dev/_images/sphx_glr_plot_caching_nearest_neighbors_001.png
24 Bytes b/‎dev/_images/sphx_glr_plot_caching_nearest_neighbors_001.png
24 Bytes
@@ -38,8 +38,8 @@
 
 """
 
+# %%
 import numpy as np
-import matplotlib.pyplot as plt
 from sklearn.gaussian_process.kernels import Kernel, Hyperparameter
 from sklearn.gaussian_process.kernels import GenericKernelMixin
 from sklearn.gaussian_process import GaussianProcessRegressor
@@ -102,10 +102,11 @@ def clone_with_theta(self, theta):
 
 kernel = SequenceKernel()
 
-"""
-Sequence similarity matrix under the kernel
-===========================================
-"""
+# %%
+# Sequence similarity matrix under the kernel
+# ===========================================
+
+import matplotlib.pyplot as plt
 
 X = np.array(["AGCT", "AGC", "AACT", "TAA", "AAA", "GAACA"])
 
@@ -117,11 +118,11 @@ def clone_with_theta(self, theta):
 plt.xticks(np.arange(len(X)), X)
 plt.yticks(np.arange(len(X)), X)
 plt.title("Sequence similarity under the kernel")
+plt.show()
 
-"""
-Regression
-==========
-"""
+# %%
+# Regression
+# ==========
 
 X = np.array(["AGCT", "AGC", "AACT", "TAA", "AAA", "GAACA"])
 Y = np.array([1.0, 1.0, 2.0, 2.0, 3.0, 3.0])
@@ -136,11 +137,11 @@ def clone_with_theta(self, theta):
 plt.xticks(np.arange(len(X)), X)
 plt.title("Regression on sequences")
 plt.legend()
+plt.show()
 
-"""
-Classification
-==============
-"""
+# %%
+# Classification
+# ==============
 
 X_train = np.array(["AGCT", "CGA", "TAAC", "TCG", "CTTT", "TGCT"])
 # whether there are 'A's in the sequence
@@ -176,13 +177,12 @@ def clone_with_theta(self, theta):
     [1.0 if c else -1.0 for c in gp.predict(X_test)],
     s=100,
     marker="x",
-    edgecolor=(0, 1.0, 0.3),
+    facecolor="b",
     linewidth=2,
     label="prediction",
 )
 plt.xticks(np.arange(len(X_train) + len(X_test)), np.concatenate((X_train, X_test)))
 plt.yticks([-1, 1], [False, True])
 plt.title("Classification on sequences")
 plt.legend()
-
 plt.show()
@@ -26,7 +26,61 @@
       },
       "outputs": [],
       "source": [
-        "import numpy as np\nimport matplotlib.pyplot as plt\nfrom sklearn.gaussian_process.kernels import Kernel, Hyperparameter\nfrom sklearn.gaussian_process.kernels import GenericKernelMixin\nfrom sklearn.gaussian_process import GaussianProcessRegressor\nfrom sklearn.gaussian_process import GaussianProcessClassifier\nfrom sklearn.base import clone\n\n\nclass SequenceKernel(GenericKernelMixin, Kernel):\n    \"\"\"\n    A minimal (but valid) convolutional kernel for sequences of variable\n    lengths.\"\"\"\n\n    def __init__(self, baseline_similarity=0.5, baseline_similarity_bounds=(1e-5, 1)):\n        self.baseline_similarity = baseline_similarity\n        self.baseline_similarity_bounds = baseline_similarity_bounds\n\n    @property\n    def hyperparameter_baseline_similarity(self):\n        return Hyperparameter(\n            \"baseline_similarity\", \"numeric\", self.baseline_similarity_bounds\n        )\n\n    def _f(self, s1, s2):\n        \"\"\"\n        kernel value between a pair of sequences\n        \"\"\"\n        return sum(\n            [1.0 if c1 == c2 else self.baseline_similarity for c1 in s1 for c2 in s2]\n        )\n\n    def _g(self, s1, s2):\n        \"\"\"\n        kernel derivative between a pair of sequences\n        \"\"\"\n        return sum([0.0 if c1 == c2 else 1.0 for c1 in s1 for c2 in s2])\n\n    def __call__(self, X, Y=None, eval_gradient=False):\n        if Y is None:\n            Y = X\n\n        if eval_gradient:\n            return (\n                np.array([[self._f(x, y) for y in Y] for x in X]),\n                np.array([[[self._g(x, y)] for y in Y] for x in X]),\n            )\n        else:\n            return np.array([[self._f(x, y) for y in Y] for x in X])\n\n    def diag(self, X):\n        return np.array([self._f(x, x) for x in X])\n\n    def is_stationary(self):\n        return False\n\n    def clone_with_theta(self, theta):\n        cloned = clone(self)\n        cloned.theta = theta\n        return cloned\n\n\nkernel = SequenceKernel()\n\n\"\"\"\nSequence similarity matrix under the kernel\n===========================================\n\"\"\"\n\nX = np.array([\"AGCT\", \"AGC\", \"AACT\", \"TAA\", \"AAA\", \"GAACA\"])\n\nK = kernel(X)\nD = kernel.diag(X)\n\nplt.figure(figsize=(8, 5))\nplt.imshow(np.diag(D**-0.5).dot(K).dot(np.diag(D**-0.5)))\nplt.xticks(np.arange(len(X)), X)\nplt.yticks(np.arange(len(X)), X)\nplt.title(\"Sequence similarity under the kernel\")\n\n\"\"\"\nRegression\n==========\n\"\"\"\n\nX = np.array([\"AGCT\", \"AGC\", \"AACT\", \"TAA\", \"AAA\", \"GAACA\"])\nY = np.array([1.0, 1.0, 2.0, 2.0, 3.0, 3.0])\n\ntraining_idx = [0, 1, 3, 4]\ngp = GaussianProcessRegressor(kernel=kernel)\ngp.fit(X[training_idx], Y[training_idx])\n\nplt.figure(figsize=(8, 5))\nplt.bar(np.arange(len(X)), gp.predict(X), color=\"b\", label=\"prediction\")\nplt.bar(training_idx, Y[training_idx], width=0.2, color=\"r\", alpha=1, label=\"training\")\nplt.xticks(np.arange(len(X)), X)\nplt.title(\"Regression on sequences\")\nplt.legend()\n\n\"\"\"\nClassification\n==============\n\"\"\"\n\nX_train = np.array([\"AGCT\", \"CGA\", \"TAAC\", \"TCG\", \"CTTT\", \"TGCT\"])\n# whether there are 'A's in the sequence\nY_train = np.array([True, True, True, False, False, False])\n\ngp = GaussianProcessClassifier(kernel)\ngp.fit(X_train, Y_train)\n\nX_test = [\"AAA\", \"ATAG\", \"CTC\", \"CT\", \"C\"]\nY_test = [True, True, False, False, False]\n\nplt.figure(figsize=(8, 5))\nplt.scatter(\n    np.arange(len(X_train)),\n    [1.0 if c else -1.0 for c in Y_train],\n    s=100,\n    marker=\"o\",\n    edgecolor=\"none\",\n    facecolor=(1, 0.75, 0),\n    label=\"training\",\n)\nplt.scatter(\n    len(X_train) + np.arange(len(X_test)),\n    [1.0 if c else -1.0 for c in Y_test],\n    s=100,\n    marker=\"o\",\n    edgecolor=\"none\",\n    facecolor=\"r\",\n    label=\"truth\",\n)\nplt.scatter(\n    len(X_train) + np.arange(len(X_test)),\n    [1.0 if c else -1.0 for c in gp.predict(X_test)],\n    s=100,\n    marker=\"x\",\n    edgecolor=(0, 1.0, 0.3),\n    linewidth=2,\n    label=\"prediction\",\n)\nplt.xticks(np.arange(len(X_train) + len(X_test)), np.concatenate((X_train, X_test)))\nplt.yticks([-1, 1], [False, True])\nplt.title(\"Classification on sequences\")\nplt.legend()\n\nplt.show()"
+        "import numpy as np\nfrom sklearn.gaussian_process.kernels import Kernel, Hyperparameter\nfrom sklearn.gaussian_process.kernels import GenericKernelMixin\nfrom sklearn.gaussian_process import GaussianProcessRegressor\nfrom sklearn.gaussian_process import GaussianProcessClassifier\nfrom sklearn.base import clone\n\n\nclass SequenceKernel(GenericKernelMixin, Kernel):\n    \"\"\"\n    A minimal (but valid) convolutional kernel for sequences of variable\n    lengths.\"\"\"\n\n    def __init__(self, baseline_similarity=0.5, baseline_similarity_bounds=(1e-5, 1)):\n        self.baseline_similarity = baseline_similarity\n        self.baseline_similarity_bounds = baseline_similarity_bounds\n\n    @property\n    def hyperparameter_baseline_similarity(self):\n        return Hyperparameter(\n            \"baseline_similarity\", \"numeric\", self.baseline_similarity_bounds\n        )\n\n    def _f(self, s1, s2):\n        \"\"\"\n        kernel value between a pair of sequences\n        \"\"\"\n        return sum(\n            [1.0 if c1 == c2 else self.baseline_similarity for c1 in s1 for c2 in s2]\n        )\n\n    def _g(self, s1, s2):\n        \"\"\"\n        kernel derivative between a pair of sequences\n        \"\"\"\n        return sum([0.0 if c1 == c2 else 1.0 for c1 in s1 for c2 in s2])\n\n    def __call__(self, X, Y=None, eval_gradient=False):\n        if Y is None:\n            Y = X\n\n        if eval_gradient:\n            return (\n                np.array([[self._f(x, y) for y in Y] for x in X]),\n                np.array([[[self._g(x, y)] for y in Y] for x in X]),\n            )\n        else:\n            return np.array([[self._f(x, y) for y in Y] for x in X])\n\n    def diag(self, X):\n        return np.array([self._f(x, x) for x in X])\n\n    def is_stationary(self):\n        return False\n\n    def clone_with_theta(self, theta):\n        cloned = clone(self)\n        cloned.theta = theta\n        return cloned\n\n\nkernel = SequenceKernel()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Sequence similarity matrix under the kernel\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "import matplotlib.pyplot as plt\n\nX = np.array([\"AGCT\", \"AGC\", \"AACT\", \"TAA\", \"AAA\", \"GAACA\"])\n\nK = kernel(X)\nD = kernel.diag(X)\n\nplt.figure(figsize=(8, 5))\nplt.imshow(np.diag(D**-0.5).dot(K).dot(np.diag(D**-0.5)))\nplt.xticks(np.arange(len(X)), X)\nplt.yticks(np.arange(len(X)), X)\nplt.title(\"Sequence similarity under the kernel\")\nplt.show()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Regression\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "X = np.array([\"AGCT\", \"AGC\", \"AACT\", \"TAA\", \"AAA\", \"GAACA\"])\nY = np.array([1.0, 1.0, 2.0, 2.0, 3.0, 3.0])\n\ntraining_idx = [0, 1, 3, 4]\ngp = GaussianProcessRegressor(kernel=kernel)\ngp.fit(X[training_idx], Y[training_idx])\n\nplt.figure(figsize=(8, 5))\nplt.bar(np.arange(len(X)), gp.predict(X), color=\"b\", label=\"prediction\")\nplt.bar(training_idx, Y[training_idx], width=0.2, color=\"r\", alpha=1, label=\"training\")\nplt.xticks(np.arange(len(X)), X)\nplt.title(\"Regression on sequences\")\nplt.legend()\nplt.show()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Classification\n\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "collapsed": false
+      },
+      "outputs": [],
+      "source": [
+        "X_train = np.array([\"AGCT\", \"CGA\", \"TAAC\", \"TCG\", \"CTTT\", \"TGCT\"])\n# whether there are 'A's in the sequence\nY_train = np.array([True, True, True, False, False, False])\n\ngp = GaussianProcessClassifier(kernel)\ngp.fit(X_train, Y_train)\n\nX_test = [\"AAA\", \"ATAG\", \"CTC\", \"CT\", \"C\"]\nY_test = [True, True, False, False, False]\n\nplt.figure(figsize=(8, 5))\nplt.scatter(\n    np.arange(len(X_train)),\n    [1.0 if c else -1.0 for c in Y_train],\n    s=100,\n    marker=\"o\",\n    edgecolor=\"none\",\n    facecolor=(1, 0.75, 0),\n    label=\"training\",\n)\nplt.scatter(\n    len(X_train) + np.arange(len(X_test)),\n    [1.0 if c else -1.0 for c in Y_test],\n    s=100,\n    marker=\"o\",\n    edgecolor=\"none\",\n    facecolor=\"r\",\n    label=\"truth\",\n)\nplt.scatter(\n    len(X_train) + np.arange(len(X_test)),\n    [1.0 if c else -1.0 for c in gp.predict(X_test)],\n    s=100,\n    marker=\"x\",\n    facecolor=\"b\",\n    linewidth=2,\n    label=\"prediction\",\n)\nplt.xticks(np.arange(len(X_train) + len(X_test)), np.concatenate((X_train, X_test)))\nplt.yticks([-1, 1], [False, True])\nplt.title(\"Classification on sequences\")\nplt.legend()\nplt.show()"
       ]
     }
   ],