neo4j-contrib
diff --git a/‎doc/asciidoc/scripts/similarity-cosine.cypher‎
Lines changed: 17 additions & 0 deletions b/‎doc/asciidoc/scripts/similarity-cosine.cypher‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎doc/asciidoc/scripts/similarity-euclidean.cypher‎
Lines changed: 16 additions & 0 deletions b/‎doc/asciidoc/scripts/similarity-euclidean.cypher‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎doc/asciidoc/scripts/similarity-jaccard.cypher‎
Lines changed: 87 additions & 0 deletions b/‎doc/asciidoc/scripts/similarity-jaccard.cypher‎
Lines changed: 87 additions & 0 deletions
diff --git a/‎doc/asciidoc/scripts/similarity-overlap.cypher‎
Lines changed: 16 additions & 0 deletions b/‎doc/asciidoc/scripts/similarity-overlap.cypher‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎doc/asciidoc/scripts/similarity-pearson.cypher‎
Lines changed: 18 additions & 1 deletion b/‎doc/asciidoc/scripts/similarity-pearson.cypher‎
Lines changed: 18 additions & 1 deletion
diff --git a/‎doc/asciidoc/similarity-cosine.adoc‎
Lines changed: 64 additions & 16 deletions b/‎doc/asciidoc/similarity-cosine.adoc‎
Lines changed: 64 additions & 16 deletions
@@ -144,3 +144,20 @@ RETURN algo.asNode(item1).name AS from, algo.asNode(item2).name AS to, similarit
 ORDER BY similarity DESC
 
 // end::embedding-graph-stream[]
+
+// tag::source-target-ids[]
+MATCH (p:Person), (c:Cuisine)
+OPTIONAL MATCH (p)-[likes:LIKES]->(c)
+WITH {item:id(p), name: p.name, weights: collect(coalesce(likes.score, algo.NaN()))} as userData
+WITH collect(userData) as personCuisines
+
+// create sourceIds list containing ids for Praveena and Arya
+WITH personCuisines,
+     [value in personCuisines WHERE value.name IN ["Praveena", "Arya"] | value.item ] AS sourceIds
+
+CALL algo.similarity.cosine.stream(personCuisines, {sourceIds: sourceIds, topK: 1})
+YIELD item1, item2, similarity
+WITH algo.getNodeById(item1) AS from, algo.getNodeById(item2) AS to, similarity
+RETURN from.name AS from, to.name AS to, similarity
+ORDER BY similarity DESC
+// end::source-target-ids[]
@@ -145,3 +145,19 @@ ORDER BY similarity DESC
 
 // end::embedding-graph-stream[]
 
+// tag::source-target-ids[]
+MATCH (p:Person), (c:Cuisine)
+OPTIONAL MATCH (p)-[likes:LIKES]->(c)
+WITH {item:id(p), name: p.name, weights: collect(coalesce(likes.score, algo.NaN()))} as userData
+WITH collect(userData) as personCuisines
+
+// create sourceIds list containing ids for Praveena and Arya
+WITH personCuisines,
+     [value in personCuisines WHERE value.name IN ["Praveena", "Arya"] | value.item ] AS sourceIds
+
+CALL algo.similarity.euclidean.stream(personCuisines, {sourceIds: sourceIds, topK: 1})
+YIELD item1, item2, similarity
+WITH algo.getNodeById(item1) AS from, algo.getNodeById(item2) AS to, similarity
+RETURN from.name AS from, to.name AS to, similarity
+ORDER BY similarity DESC
+// end::source-target-ids[]
@@ -36,6 +36,53 @@ MERGE (karin)-[:LIKES]->(italian)
 // end::create-sample-graph[]
 
 
+// tag::create-sample-graph-procedure[]
+
+MERGE (french:Cuisine {name:'French'})
+MERGE (italian:Cuisine {name:'Italian'})
+MERGE (indian:Cuisine {name:'Indian'})
+MERGE (lebanese:Cuisine {name:'Lebanese'})
+MERGE (portuguese:Cuisine {name:'Portuguese'})
+
+MERGE (zhen:Person {name: "Zhen"})
+MERGE (praveena:Person {name: "Praveena"})
+MERGE (michael:Person {name: "Michael"})
+MERGE (arya:Person {name: "Arya"})
+MERGE (karin:Person {name: "Karin"})
+
+MERGE (shrimp:Recipe {title: "Shrimp Bolognese"})
+MERGE (saltimbocca:Recipe {title: "Saltimbocca alla roman"})
+MERGE (periperi:Recipe {title: "Peri Peri Naan"})
+
+MERGE (praveena)-[:LIKES]->(indian)
+MERGE (praveena)-[:LIKES]->(portuguese)
+
+MERGE (zhen)-[:LIKES]->(french)
+MERGE (zhen)-[:LIKES]->(indian)
+
+MERGE (michael)-[:LIKES]->(french)
+MERGE (michael)-[:LIKES]->(italian)
+MERGE (michael)-[:LIKES]->(indian)
+
+MERGE (arya)-[:LIKES]->(lebanese)
+MERGE (arya)-[:LIKES]->(italian)
+MERGE (arya)-[:LIKES]->(portuguese)
+
+MERGE (karin)-[:LIKES]->(lebanese)
+MERGE (karin)-[:LIKES]->(italian)
+
+MERGE (shrimp)-[:TYPE]->(italian)
+MERGE (shrimp)-[:TYPE]->(indian)
+
+MERGE (saltimbocca)-[:TYPE]->(italian)
+MERGE (saltimbocca)-[:TYPE]->(french)
+
+MERGE (periperi)-[:TYPE]->(portuguese)
+MERGE (periperi)-[:TYPE]->(indian)
+
+// end::create-sample-graph-procedure[]
+
+
 // tag::function-cypher[]
 MATCH (p1:Person {name: 'Karin'})-[:LIKES]->(cuisine1)
 WITH p1, collect(id(cuisine1)) AS p1Cuisine
@@ -102,3 +149,43 @@ MATCH (p:Person {name: "Praveena"})-[:SIMILAR]->(other),
 WHERE not((p)-[:LIKES]->(cuisine))
 RETURN cuisine.name AS cuisine
 // end::query[]
+
+// tag::source-target-ids[]
+// compute categories for recipes
+MATCH (recipe:Recipe)-[:TYPE]->(cuisine)
+WITH {item:id(recipe), categories: collect(id(cuisine))} as data
+WITH collect(data) AS recipeCuisines
+
+// compute categories for people
+MATCH (person:Person)-[:LIKES]->(cuisine)
+WITH recipeCuisines, {item:id(person), categories: collect(id(cuisine))} as data
+WITH recipeCuisines, collect(data) AS personCuisines
+
+// create sourceIds and targetIds lists
+WITH recipeCuisines, personCuisines,
+     [value in recipeCuisines | value.item] AS sourceIds,
+     [value in personCuisines | value.item] AS targetIds
+
+CALL algo.similarity.jaccard.stream(recipeCuisines + personCuisines, {sourceIds: sourceIds, targetIds: targetIds})
+YIELD item1, item2, similarity
+WITH algo.getNodeById(item1) AS from, algo.getNodeById(item2) AS to, similarity
+RETURN from.title AS from, to.name AS to, similarity
+ORDER BY similarity DESC
+LIMIT 10
+// end::source-target-ids[]
+
+// tag::source-target-ids-2[]
+MATCH (person:Person)-[:LIKES]->(cuisine)
+WITH {item:id(person), name: person.name, categories: collect(id(cuisine))} as data
+WITH collect(data) AS personCuisines
+
+// create sourceIds list containing ids for Praveena and Arya
+WITH personCuisines,
+     [value in personCuisines WHERE value.name IN ["Praveena", "Arya"] | value.item ] AS sourceIds
+
+CALL algo.similarity.jaccard.stream(personCuisines, {sourceIds: sourceIds, topK: 1})
+YIELD item1, item2, similarity
+WITH algo.getNodeById(item1) AS from, algo.getNodeById(item2) AS to, similarity
+RETURN from.name AS from, to.name AS to, similarity
+ORDER BY similarity DESC
+// end::source-target-ids-2[]
@@ -83,3 +83,19 @@ MATCH path = (fantasy:Genre {name: "Fantasy"})-[:NARROWER_THAN*]->(genre)
 RETURN [node in nodes(path) | node.name] AS hierarchy
 ORDER BY length(path)
 // end::query[]
+
+
+// tag::source-target-ids[]
+MATCH (book:Book)-[:HAS_GENRE]->(genre)
+WITH {item:id(genre), name: genre.name, categories: collect(id(book))} as userData
+WITH collect(userData) as data
+
+// create sourceIds list containing ids for Fantasy and Classics
+WITH data,
+     [value in data WHERE value.name IN ["Fantasy", "Classics"] | value.item ] AS sourceIds
+
+CALL algo.similarity.overlap.stream(data, {sourceIds: sourceIds})
+YIELD item1, item2, count1, count2, intersection, similarity
+RETURN algo.getNodeById(item1).name AS from, algo.getNodeById(item2).name AS to, similarity
+ORDER BY similarity DESC
+// end::source-target-ids[]
@@ -148,4 +148,21 @@ YIELD item1, item2, count1, count2, similarity
 RETURN algo.asNode(item1).name AS from, algo.asNode(item2).name AS to, similarity
 ORDER BY similarity DESC
 
-// end::embedding-graph-stream[]
+// end::embedding-graph-stream[]
+
+// tag::source-target-ids[]
+MATCH (p:Person), (m:Movie)
+OPTIONAL MATCH (p)-[rated:RATED]->(m)
+WITH {item:id(p), name: p.name, weights: collect(coalesce(rated.score, algo.NaN()))} as userData
+WITH collect(userData) as personCuisines
+
+// create sourceIds list containing ids for Praveena and Arya
+WITH personCuisines,
+     [value in personCuisines WHERE value.name IN ["Praveena", "Arya"] | value.item ] AS sourceIds
+
+CALL algo.similarity.pearson.stream(personCuisines, {sourceIds: sourceIds, topK: 1})
+YIELD item1, item2, similarity
+WITH algo.getNodeById(item1) AS from, algo.getNodeById(item2) AS to, similarity
+RETURN from.name AS from, to.name AS to, similarity
+ORDER BY similarity DESC
+// end::source-target-ids[]
@@ -1,3 +1,4 @@
+:procedure-name: Cosine Similarity
 [[algorithms-similarity-cosine]]
 = The Cosine Similarity algorithm
 
@@ -15,9 +16,11 @@ This section includes:
 
 * <<algorithms-similarity-cosine-context, History and explanation>>
 * <<algorithms-similarity-cosine-usecase, Use-cases - when to use the Cosine Similarity algorithm>>
-* <<algorithms-similarity-cosine-sample, Cosine Similarity algorithm sample>>
-* <<algorithms-similarity-cosine-cypher-projection, Cypher projection>>
+* <<algorithms-similarity-cosine-function-sample, Cosine Similarity function algorithm sample>>
+* <<algorithms-similarity-cosine-procedure-sample, Cosine Similarity procedures algorithm sample>>
+* <<algorithms-similarity-cosine-source-target-ids, Specifying source and target ids>>
 * <<algorithms-similarity-cosine-skipping-values, Skipping values>>
+* <<algorithms-similarity-cosine-cypher-projection, Cypher projection>>
 * <<algorithms-similarity-cosine-syntax, Syntax>>
 
 
@@ -36,10 +39,6 @@ The library contains both procedures and functions to calculate similarity betwe
 The function is best used when calculating the similarity between small numbers of sets.
 The procedures parallelize the computation and are therefore more appropriate for computing similarities on bigger datasets.
 
-Cosine similarity is only calculated over non-NULL dimensions.
-When calling the function, we should provide lists that contain the overlapping items.
-The procedures expect to receive the same length lists for all items, so we need to pad those lists with `algo.NaN()` where necessary.
-
 // end::explanation[]
 
 [[algorithms-similarity-cosine-usecase]]
@@ -52,8 +51,14 @@ For example, to get movie recommendations based on the preferences of users who
 // end::use-case[]
 
 
-[[algorithms-similarity-cosine-sample]]
-== Cosine algorithm sample
+[[algorithms-similarity-cosine-function-sample]]
+== Cosine Similarity algorithm function sample
+
+The Cosine Similarity function computes the similarity of two lists of numbers.
+
+include::similarity.adoc[tag=weighted-function-note]
+
+We can use it to compute the similarity of two hardcoded lists.
 
 .The following will return the cosine similarity of two lists of numbers:
 [source, cypher]
@@ -82,6 +87,8 @@ image::cosine-similarity2.png[role="middle"]
 
 // end::function-explanation[]
 
+We can also use it to compute the similarity of nodes based on lists computed by a Cypher query.
+
 .The following will create a sample graph:
 [source, cypher]
 ----
@@ -123,6 +130,21 @@ include::scripts/similarity-cosine.cypher[tag=function-cypher-all]
 |===
 // end::function-cypher-all[]
 
+
+[[algorithms-similarity-cosine-procedure-sample]]
+== Cosine Similarity algorithm procedures sample
+
+
+include::similarity.adoc[tag=computation]
+include::similarity.adoc[tag=weighted-note]
+
+.The following will create a sample graph:
+[source, cypher]
+----
+include::scripts/similarity-cosine.cypher[tag=create-sample-graph]
+----
+
+
 .The following will return a stream of node pairs along with their Cosine similarities:
 [source, cypher]
 ----
@@ -236,18 +258,29 @@ include::scripts/similarity-cosine.cypher[tag=query]
 // end::query[]
 
 
-[[algorithms-similarity-cosine-cypher-projection]]
-== Cypher projection
+[[algorithms-similarity-cosine-source-target-ids]]
+== Specifying source and target ids
 
-include::projected-graph-model/cypher-projection.adoc[tag=similarity-explanation]
+include::similarity.adoc[tag=source-target-ids]
 
-.Set `graph:'cypher'` in the config:
+We could use this technique to compute the similarity of a subset of items to all other items.
 
-[source,cypher]
+.The following will find the most similar person (i.e. `k=1`) to Arya and Praveena:
+[source, cypher]
 ----
-include::scripts/similarity-cosine.cypher[tag=cypher-projection]
+include::scripts/similarity-cosine.cypher[tag=source-target-ids]
 ----
 
+// tag::source-target-ids[]
+.Results
+[opts="header",cols="1,1,1"]
+|===
+| `from`   | `to`     | `similarity`
+| Praveena | Karin   | 1.0                
+| Arya     | Michael | 0.9788908326303921 
+|===
+// end::source-target-ids[]
+
 [[algorithms-similarity-cosine-skipping-values]]
 == Skipping values
 
@@ -267,14 +300,25 @@ include::scripts/similarity-cosine.cypher[tag=create-sample-embedding-graph]
 include::scripts/similarity-cosine.cypher[tag=embedding-graph-stream]
 ----
 
+[[algorithms-similarity-cosine-cypher-projection]]
+== Cypher projection
+
+include::projected-graph-model/cypher-projection.adoc[tag=similarity-explanation]
+
+.Set `graph:'cypher'` in the config:
+
+[source,cypher]
+----
+include::scripts/similarity-cosine.cypher[tag=cypher-projection]
+----
 
 [[algorithms-similarity-cosine-syntax]]
 == Syntax
 
 .The following will run the algorithm and write back results:
 [source, cypher]
 ----
-CALL algo.similarity.cosine(userData:List<Map>> or String, {
+CALL algo.similarity.cosine(userData:List<Map> or String, {
     topK: 1, similarityCutoff: 0.1, write:true, writeProperty: "cosineSimilarity"
 })
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p25, p50, p75, p90, p95, p99, p999, p100
@@ -297,6 +341,8 @@ YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min,
 | `writeBatchSize`            | int     | 10000 | yes      | The batch size to use when storing results.
 | `writeRelationshipType`  | string  | SIMILAR        | yes      | The relationship type to use when storing results.
 | `writeProperty`          | string  | score          | yes      | The property to use when storing results.
+| `sourceIds`          | long[] | null | yes | The ids of items from which we need to compute similarities. Defaults to all the items provided in the `data` parameter.
+| `targetIds`          | long[] | null | yes | The ids of items to which we need to compute similarities. Defaults to all the items provided in the `data` parameter.
 |===
 
 .Results
@@ -325,7 +371,7 @@ YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min,
 .The following will run the algorithm and stream results:
 [source,cypher]
 ----
-CALL algo.similarity.cosine.stream(userData:List<Map>> or String, {
+CALL algo.similarity.cosine.stream(userData:List<Map> or String, {
     degreeCutoff: 10, similarityCutoff: 0.1, concurrency:4
 })
 YIELD item1, item2, count1, count2, intersection, similarity
@@ -344,6 +390,8 @@ YIELD item1, item2, count1, count2, intersection, similarity
 | `skipValue`              | double  | null           | yes      | Value to skip when executing similarity computation. A value of `null` means that skipping is disabled.
 | `concurrency`      | int    | available CPUs | yes      | The number of concurrent threads.
 | `graph`                  | string  | dense          | yes      | The graph name ('dense' or 'cypher').
+| `sourceIds`          | long[] | null | yes | The ids of items from which we need to compute similarities. Defaults to all the items provided in the `data` parameter.
+| `targetIds`          | long[] | null | yes | The ids of items to which we need to compute similarities. Defaults to all the items provided in the `data` parameter.
 |===
 
 .Results