docs: Add Semantic Caching Tutorial #118

oandreeva-nv · 2024-10-23T00:26:57Z

This PR adds reference implementation of local Semantic caching mechanism.
Note:
Adding a CPU based index, since for current tutorial this seems enough. GPU-based index makes more sense when we have large amount of vectors to process.

Opens:

I've added a section called Interested in This Feature?, which is not finished at the moment.

My suggestion for community engagement is to create a GitHub issue and encourage readers and users to vote on it, in case it is interested.

If there're no objections, I'll proceed with this idea.

[Edit 1] discussion opened -> triton-inference-server/server#7742

Conceptual_Guide/Part_8-semantic_caching/README.md

rmccorm4 · 2024-10-23T01:26:26Z

Conceptual_Guide/Part_8-semantic_caching/README.md

+supported feature in Triton Inference Server.
+
+We value your input! If you're interested in seeing semantic caching as a
+supported feature in future releases, we encourage you to [FILL IN]


FILL IN

reminder for self

Conceptual_Guide/Part_8-semantic_caching/README.md

rmccorm4 · 2024-10-23T01:43:38Z

Conceptual_Guide/Part_8-semantic_caching/README.md

+Clearly, the latter 2 requests are semantically similar to the first one, which
+resulted in a cache hit scenario, which reduced the latency of our model from
+approx 1.1s to the average of 0.048s per request.


Did you have any rough ideas of cache miss cost? ex: 1 request without semantic caching vs 1 request with semantic caching? Just curious on the rough magnitude of the overhead.

I can probably do some estimations for that.

I'm leaving this unresolved to remind myself to do this study as a follow-up

Conceptual_Guide/Part_8-semantic_caching/README.md

rmccorm4

This looks great! It was very enjoyable to read 🤓

Co-authored-by: Ryan McCormick <[email protected]>

Conceptual_Guide/Part_8-semantic_caching/README.md

Conceptual_Guide/Part_8-semantic_caching/artifacts/semantic_caching.py

krishung5 · 2024-10-23T21:59:10Z

Nice tutorial! Really fun to try it out 🚀

Co-authored-by: Kris Hung <[email protected]>

Conceptual_Guide/Part_8-semantic_caching/README.md

rmccorm4

LGTM!

Left some nits and suggested a PR title change - feel free to change

Co-authored-by: Ryan McCormick <[email protected]>

oandreeva-nv added 5 commits October 21, 2024 17:41

Initial readme and sematic caching implementation

effd76e

Formatting

df692db

Fixed links

8e7f0f3

Added missing annotation

22c412e

Follow ups

0fb90d6

oandreeva-nv requested review from nnshah1, rmccorm4, GuanLuo, kthui and krishung5 October 23, 2024 00:27

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Show resolved Hide resolved

rmccorm4 reviewed Oct 23, 2024

View reviewed changes

Apply suggestions from code review

d11a5ea

Co-authored-by: Ryan McCormick <[email protected]>

krishung5 reviewed Oct 23, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Show resolved Hide resolved

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

Conceptual_Guide/Part_8-semantic_caching/artifacts/semantic_caching.py Show resolved Hide resolved

oandreeva-nv and others added 3 commits October 23, 2024 15:29

Adjusted added codebase for clarity

210a400

Update Conceptual_Guide/Part_8-semantic_caching/README.md

841464c

Co-authored-by: Kris Hung <[email protected]>

Copyright

cba4196

GuanLuo previously approved these changes Oct 23, 2024

View reviewed changes

krishung5 previously approved these changes Oct 23, 2024

View reviewed changes

Added patch

dd4de13

oandreeva-nv dismissed stale reviews from krishung5 and GuanLuo via dd4de13 October 24, 2024 19:11

oandreeva-nv added 4 commits October 24, 2024 17:15

Added limitations sections + some clarifications

0ec9015

heading format

fbc0466

Finilised Interested in this feature discussion

b72be05

added a limitation

70cac18

oandreeva-nv requested review from rmccorm4, krishung5 and GuanLuo October 25, 2024 01:10

rmccorm4 reviewed Oct 25, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 25, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 25, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 25, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 reviewed Oct 25, 2024

View reviewed changes

Conceptual_Guide/Part_8-semantic_caching/README.md Outdated Show resolved Hide resolved

rmccorm4 previously approved these changes Oct 25, 2024

View reviewed changes

rmccorm4 changed the title ~~Semantic Caching tutorial~~ docs: Add Semantic Caching Tutorial Oct 25, 2024

Apply suggestions from code review

dc9ee05

Co-authored-by: Ryan McCormick <[email protected]>

oandreeva-nv dismissed rmccorm4’s stale review via dc9ee05 October 25, 2024 21:12

rmccorm4 approved these changes Oct 25, 2024

View reviewed changes

krishung5 approved these changes Oct 25, 2024

View reviewed changes

oandreeva-nv merged commit c52dcc1 into main Oct 26, 2024
3 checks passed

oandreeva-nv deleted the oandreeva_semantic_caching_poc branch October 26, 2024 00:20

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs: Add Semantic Caching Tutorial #118

docs: Add Semantic Caching Tutorial #118

oandreeva-nv commented Oct 23, 2024 •

edited

Loading

rmccorm4 Oct 23, 2024 •

edited

Loading

rmccorm4 Oct 23, 2024

oandreeva-nv Oct 23, 2024

oandreeva-nv Oct 25, 2024

rmccorm4 left a comment

krishung5 commented Oct 23, 2024

rmccorm4 left a comment •

edited

Loading

docs: Add Semantic Caching Tutorial #118

docs: Add Semantic Caching Tutorial #118

Conversation

oandreeva-nv commented Oct 23, 2024 • edited Loading

rmccorm4 Oct 23, 2024 • edited Loading

Choose a reason for hiding this comment

rmccorm4 Oct 23, 2024

Choose a reason for hiding this comment

oandreeva-nv Oct 23, 2024

Choose a reason for hiding this comment

oandreeva-nv Oct 25, 2024

Choose a reason for hiding this comment

rmccorm4 left a comment

Choose a reason for hiding this comment

krishung5 commented Oct 23, 2024

rmccorm4 left a comment • edited Loading

Choose a reason for hiding this comment

oandreeva-nv commented Oct 23, 2024 •

edited

Loading

rmccorm4 Oct 23, 2024 •

edited

Loading

rmccorm4 left a comment •

edited

Loading