slides/2013-04-26-Multimedia.html

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
               "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">
<head>
<title>2013-04-26-Multimedia</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<meta name="title" content="2013-04-26-Multimedia"/>
<meta name="generator" content="Org-mode"/>
<meta name="generated" content="2013-04-26 09:55:15 PDT"/>
<meta name="author" content="Jim Blomo"/>
<meta name="description" content=""/>
<meta name="keywords" content=""/>

<link rel="stylesheet" type="text/css" href="production/common.css" />
<link rel="stylesheet" type="text/css" href="production/screen.css" media="screen" />
<link rel="stylesheet" type="text/css" href="production/projection.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/color-blue.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/presenter.css" media="presenter" />
<link href='http://fonts.googleapis.com/css?family=Lobster+Two:700|Yanone+Kaffeesatz:700|Open+Sans' rel='stylesheet' type='text/css'>


</head>
<body>

<div id="preamble">

</div>

<div id="content">
<h1 class="title">2013-04-26-Multimedia</h1>


<div id="table-of-contents">
<h2>Table of Contents</h2>
<div id="text-table-of-contents">
<ul>
<li><a href="#sec-1">1 Multimedia Data Mining</a></li>
<li><a href="#sec-2">2 Features</a></li>
<li><a href="#sec-3">3 Types</a>
<ul>
<li><a href="#sec-3-1">3.1 Covering</a></li>
</ul>
</li>
<li><a href="#sec-4">4 Generalization</a>
<ul>
<li><a href="#sec-4-1">4.1 Density</a></li>
</ul>
</li>
<li><a href="#sec-5">5 Generalized Features</a>
<ul>
<li><a href="#sec-5-1">5.1 Techniques</a></li>
</ul>
</li>
<li><a href="#sec-6">6 GIS</a></li>
<li><a href="#sec-7">7 Spatial Databases</a></li>
<li><a href="#sec-8">8 Discovery</a>
<ul>
<li><a href="#sec-8-1">8.1 Ideas</a></li>
</ul>
</li>
<li><a href="#sec-9">9 ATM Locations given obstacles</a>
<ul>
<li><a href="#sec-9-1">9.1 Yelp</a></li>
</ul>
</li>
<li><a href="#sec-10">10 Images</a>
<ul>
<li><a href="#sec-10-1">10.1 Covering</a></li>
</ul>
</li>
<li><a href="#sec-11">11 SIFT</a>
<ul>
<li><a href="#sec-11-1">11.1 Process</a></li>
</ul>
</li>
<li><a href="#sec-12">12 Sketch Recognition</a>
<ul>
<li><a href="#sec-12-1">12.1 Why?</a></li>
</ul>
</li>
<li><a href="#sec-13">13 Direction</a>
<ul>
<li><a href="#sec-13-1">13.1 Angles?</a></li>
</ul>
</li>
<li><a href="#sec-14">14 Direction Plot</a>
<ul>
<li><a href="#sec-14-1">14.1 Why?</a></li>
</ul>
</li>
<li><a href="#sec-15">15 Direction Plot</a>
<ul>
<li><a href="#sec-15-1">15.1 Why?</a></li>
</ul>
</li>
<li><a href="#sec-16">16 Features</a>
<ul>
<li><a href="#sec-16-1">16.1 Why?</a></li>
</ul>
</li>
<li><a href="#sec-17">17 All Together Now</a></li>
<li><a href="#sec-18">18 Music</a>
<ul>
<li><a href="#sec-18-1">18.1 Relation to Images</a></li>
</ul>
</li>
<li><a href="#sec-19">19 <b>Break</b></a></li>
</ul>
</div>
</div>

<div id="outline-container-1" class="outline-2">
<h2 id="sec-1"><span class="section-number-2">1</span> Multimedia Data Mining &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-1">


</div>

</div>

<div id="outline-container-2" class="outline-2">
<h2 id="sec-2"><span class="section-number-2">2</span> Features &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-2">

<ul>
<li>Core algorithms similar to "traditional" data mining
</li>
<li>Difference lies in feature engineering
</li>
<li>How to translate intuitions to numbers and formulas?
</li>
</ul>

<p>  <img src="img/face-recognition.jpg"  alt="img/face-recognition.jpg" />
</p>
</div>

</div>

<div id="outline-container-3" class="outline-2">
<h2 id="sec-3"><span class="section-number-2">3</span> Types &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-3">

<dl>
<dt>Spatial</dt><dd>geographic points and features, including natural and man-made
    phenomenon
</dd>
<dt>Images</dt><dd>Size, color, shape, curves, relative positions
</dd>
<dt>Music</dt><dd>Tone, tempo, beat, rhythm
</dd>
<dt>Voice</dt><dd>Speed, accent, word pauses, background noise
</dd>
</dl>


</div>

<div id="outline-container-3-1" class="outline-3">
<h3 id="sec-3-1"><span class="section-number-3">3.1</span> Covering &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-3-1">

<ul>
<li>We'll cover these areas briefly to get an overview of techniques used in
     these fields
</li>
<li>All of these things <b>have</b> embedded information in them, and we are trying
     to extract it
</li>
<li>One of the reasons data mining is not a black box: some one has to be on
     the outside interpreting results. Results inform technique
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-4" class="outline-2">
<h2 id="sec-4"><span class="section-number-2">4</span> Generalization &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-4">

<ul>
<li>Many of these areas have digital representations
</li>
<li>Can we use the raw bit representations?
</li>
<li>Usually not: must generalize patterns
</li>
</ul>

<p>  <img src="img/digits.png"  alt="img/digits.png" />
</p>
</div>

<div id="outline-container-4-1" class="outline-3">
<h3 id="sec-4-1"><span class="section-number-3">4.1</span> Density &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-4-1">

<ul>
<li>The data we get from digital representations is generally too sparse
</li>
<li>Key component of good learning is <b>data</b>, but you need fairly <b>dense</b> data
     to learn a pattern
</li>
<li>Hypothetically, a neural network could extract general features from raw
     data, but you'd need a really large amount of data in order to get the
     density needed
</li>
<li>Example: for NLP, perhaps your corpus is too sparse: not many words are
     shared between documents.  So instead generalize: what parts of speech or
     patterns show up across documents?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-5" class="outline-2">
<h2 id="sec-5"><span class="section-number-2">5</span> Generalized Features &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-5">

<ul>
<li>Derivative / Slope of behavior
</li>
<li>Min / Max of groups of points
</li>
<li>Bucketing / Blurring
</li>
<li>Relative positions / angles
</li>
</ul>


</div>

<div id="outline-container-5-1" class="outline-3">
<h3 id="sec-5-1"><span class="section-number-3">5.1</span> Techniques &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-5-1">

<ul>
<li>How can you strip some of the non-essential information, keep important
     patterns?
</li>
<li>Many times we care about relative change, like in pricing
</li>
<li>Or group data points together (clustering is an advanced form of this)
</li>
<li>OK, let's get into some specifics:
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-6" class="outline-2">
<h2 id="sec-6"><span class="section-number-2">6</span> GIS &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-6">

<ul>
<li>Geographic Information Systems
</li>
<li>Analysis and visualization of geographic data
</li>
<li>Search, terrain, object detection, flow calculations
</li>
</ul>

<p>  <img src="img/gis.jpg"  alt="img/gis.jpg" />
</p>
</div>

</div>

<div id="outline-container-7" class="outline-2">
<h2 id="sec-7"><span class="section-number-2">7</span> Spatial Databases &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-7">

<ul>
<li>Integrates spatial information with traditional DBMS operations
</li>
<li>Spatial indexing, distance metrics, polygon definitions, layering
</li>
<li>Eg: Oracle Spatial Data Cartridge, ESRI Spatial Engine
</li>
</ul>


</div>

</div>

<div id="outline-container-8" class="outline-2">
<h2 id="sec-8"><span class="section-number-2">8</span> Discovery &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-8">

<ul>
<li>What are examples of efficient city layouts?
</li>
<li>What influences successful business centers?
</li>
<li>Deforestation rates
</li>
</ul>


</div>

<div id="outline-container-8-1" class="outline-3">
<h3 id="sec-8-1"><span class="section-number-3">8.1</span> Ideas &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-8-1">

<ul>
<li>City layouts: Understanding home-&gt;work distances, not Euclidean, but
     traffic on streets or by public transportation, recognizing traffic jams
</li>
<li>Business centers: analyzing network flow based on roads: industrial
     supply centers nearby?  Creative centers, restaurants, nightlife?
</li>
<li>Deforestation: nearby cities' effect? Recognizing forested areas vs
     clear cut. Time series
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-9" class="outline-2">
<h2 id="sec-9"><span class="section-number-2">9</span> ATM Locations given obstacles &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-9">

<p>  <img src="img/obstacle-clustering.png"  alt="img/obstacle-clustering.png" />
</p>
</div>

<div id="outline-container-9-1" class="outline-3">
<h3 id="sec-9-1"><span class="section-number-3">9.1</span> Yelp &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-9-1">

<ul>
<li>This is a current area we could improve at Yelp:
</li>
<li>Just because you're a mile from a restaurant doesn't mean it is "close"
</li>
<li>Maybe across the Bay, or maybe in between metro stops
</li>
<li>How can you calculate efficiently?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-10" class="outline-2">
<h2 id="sec-10"><span class="section-number-2">10</span> Images &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-10">

<ul>
<li>General Feature Extraction
</li>
<li>Sketch Recognition
</li>
<li>Image Recognition
</li>
</ul>

<p>  <img src="img/Sift_keypoints_filtering.jpg"  alt="img/Sift_keypoints_filtering.jpg" />
</p>
</div>

<div id="outline-container-10-1" class="outline-3">
<h3 id="sec-10-1"><span class="section-number-3">10.1</span> Covering &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-10-1">

<ul>
<li>We'll cover some interesting ways to extract dimensions
</li>
<li>ML/data mining combine these dimensions to do recognition with, eg.
     labeled data
</li>
<li>Image on the right is using an algorithm to pick out, then filter
     "interesting" points on the image
</li>
<li>img: <a href="http://en.wikipedia.org/wiki/Scale-invariant_feature_transform">http://en.wikipedia.org/wiki/Scale-invariant_feature_transform</a>
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-11" class="outline-2">
<h2 id="sec-11"><span class="section-number-2">11</span> SIFT &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-11">

<p>  <img src="img/Sift_keypoints_filtering.jpg"  alt="img/Sift_keypoints_filtering.jpg" />
</p>
</div>

<div id="outline-container-11-1" class="outline-3">
<h3 id="sec-11-1"><span class="section-number-3">11.1</span> Process &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-11-1">

<ul>
<li>Successively apply Gaussian blur to image
</li>
<li>Find points which "stand out" between blurs (ie big differences)
</li>
<li>You can connect these keypoints to make a kind of fingerprint
</li>
<li>These fingerprints can be used, scaled, etc. to match against other images
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-12" class="outline-2">
<h2 id="sec-12"><span class="section-number-2">12</span> Sketch Recognition &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-12">

<p>  <img src="img/sketch-1.png"  alt="img/sketch-1.png" />
</p><ul>
<li>Find (x,y) points along a sketch
</li>
</ul>


</div>

<div id="outline-container-12-1" class="outline-3">
<h3 id="sec-12-1"><span class="section-number-3">12.1</span> Why? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-12-1">

<ul>
<li>Sketch recognition can be used to see if you're drawing shapes
</li>
<li>Be nice to be able to snap a picture of your diagram on a napkin and have
     it come out nicely formatted?
</li>
<li>But how to recognize a circle, assuming you can't draw a perfect circle?
</li>
<li>Start with (x,y) points, but as we mentioned, very sparse
</li>
<li>Images by Marty Field
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-13" class="outline-2">
<h2 id="sec-13"><span class="section-number-2">13</span> Direction &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-13">

<p>  <img src="img/sketch-2.png"  alt="img/sketch-2.png" />
</p><ul>
<li>Find angles along a sketch
</li>
</ul>


</div>

<div id="outline-container-13-1" class="outline-3">
<h3 id="sec-13-1"><span class="section-number-3">13.1</span> Angles? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-13-1">

<ul>
<li>Instead of points, measure the angle at each turn
</li>
<li>You'll notice something peculiar about these angles. What?
</li>
<li>They're more than +/- 180 because we want to continue a "trend" if
     they're turning the same way. Help identify changes in direction vs
     spirals
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-14" class="outline-2">
<h2 id="sec-14"><span class="section-number-2">14</span> Direction Plot &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-14">

<p>  <img src="img/sketch-3.png"  alt="img/sketch-3.png" />
</p><ul>
<li>Plot angles vs time
</li>
</ul>


</div>

<div id="outline-container-14-1" class="outline-3">
<h3 id="sec-14-1"><span class="section-number-3">14.1</span> Why? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-14-1">

<ul>
<li>Becomes even more generalized:
<ul>
<li>What is the derivative?
</li>
<li>How many times to we change derivatives?
</li>
</ul>

</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-15" class="outline-2">
<h2 id="sec-15"><span class="section-number-2">15</span> Direction Plot &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-15">

<p>  <img src="img/sketch-4.png"  alt="img/sketch-4.png" />
</p><ul>
<li>Plot angles vs time
</li>
</ul>


</div>

<div id="outline-container-15-1" class="outline-3">
<h3 id="sec-15-1"><span class="section-number-3">15.1</span> Why? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-15-1">

<ul>
<li>Example where we change directions
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-16" class="outline-2">
<h2 id="sec-16"><span class="section-number-2">16</span> Features &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="center">center</span></span></h2>
<div class="outline-text-2" id="text-16">

<p>  <img src="img/sketch-4.png"  alt="img/sketch-4.png" />
</p><dl>
<dt>NDDE</dt><dd>Normalized Distance between Direction Extremes
</dd>
<dt>DCR</dt><dd>Direction Change Ratio
</dd>
</dl>


</div>

<div id="outline-container-16-1" class="outline-3">
<h3 id="sec-16-1"><span class="section-number-3">16.1</span> Why? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-16-1">

<dl>
<dt>NDDE</dt><dd>Are the discontinuous changes in direction, or is the line
<ul>
<li>generally curvy, and follows a similar path?
</li>
</ul>

</dd>
<dt>DCR</dt><dd>Total amount of angle change in the sketch. Low for first, high
     for second
</dd>
<dt>Others?</dt><dd>bounding box size/ratio, stroke length, distance between endpoints,
     length, width, height, speed, direction, acceleration
</dd>
</dl>


</div>
</div>

</div>

<div id="outline-container-17" class="outline-2">
<h2 id="sec-17"><span class="section-number-2">17</span> All Together Now &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-17">


<iframe src="http://player.vimeo.com/video/6496886" frameborder="0" webkitAllowFullScreen mozallowfullscreen allowFullScreen></iframe> <p><a href="http://vimeo.com/6496886">Sketch2Photo: Internet Image Montage</a> from <a href="http://vimeo.com/user2276797">Tao Chen</a> on <a href="http://vimeo.com">Vimeo</a>.</p>
<p>
<a href="http://vimeo.com/6496886">Sketch2Photo</a>
</p>
</div>

</div>

<div id="outline-container-18" class="outline-2">
<h2 id="sec-18"><span class="section-number-2">18</span> Music &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-18">

<ul>
<li>Generate a finger print: time, frequency, amplitude
</li>
<li>Filter most intense (largest) amplitudes
</li>
<li>Create a hash of connections between points
</li>
<li>Match, in time, the hash between songs
</li>
</ul>

<p>  <img src="img/music_match.png"  alt="img/music_match.png" />
</p>
</div>

<div id="outline-container-18-1" class="outline-3">
<h3 id="sec-18-1"><span class="section-number-3">18.1</span> Relation to Images &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-18-1">

<ul>
<li>Interesting to note: we transformed one media type (music) into another
     (image), then started using some techniques we've seen in image
     fingerprinting
</li>
<li>More in reading
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-19" class="outline-2">
<h2 id="sec-19"><span class="section-number-2">19</span> <b>Break</b> &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-19">


<script type="text/javascript" src="production/org-html-slideshow.js"></script>

</div>
</div>
</div>

<div id="postamble">
<p class="date">Date: 2013-04-26 09:55:15 PDT</p>
<p class="author">Author: Jim Blomo</p>
<p class="creator">Org version 7.8.02 with Emacs version 23</p>
<a href="http://validator.w3.org/check?uri=referer">Validate XHTML 1.0</a>

</div>
</body>
</html>