lab1

Nov 8, 2016

8eb082d · Nov 8, 2016

This branch is up to date with syniuhin/kpi-databases-2:master.

Name	Name	Last commit message	Last commit date
parent directory ..
.gitignore	.gitignore	Django skeleton copied	Oct 30, 2016
README.md	README.md	Create README.md or lab1	Nov 7, 2016
analyse_xml.py	analyse_xml.py	Analyse xml for hyperlinks	Oct 29, 2016
gen_xhtml.py	gen_xhtml.py	XHTML generation	Nov 8, 2016
gen_xml.py	gen_xml.py	Django skeleton copied	Oct 30, 2016
gen_xml.pyc	gen_xml.pyc	Django skeleton copied	Oct 30, 2016
pages.xml	pages.xml	Changed e-store for lab1	Nov 7, 2016
parse_estore.py	parse_estore.py	Changed e-store for lab1	Nov 7, 2016
pattern.xsl	pattern.xsl	XHTML generation	Nov 8, 2016
products.html	products.html	XHTML generation	Nov 8, 2016
products.xml	products.xml	Changed e-store for lab1	Nov 7, 2016

README.md

Лабораторна робота #1

Завдання

Виконати збір інформації зі сторінок Web-сайту за варіантом.
Виконати аналіз сторінок Web-сайту для подальшої обробки текстової та графічної інформації, розміщеної на ньому.
Реалізувати функціональні можливості згідно вимог, наведених нижче.

Варіант

14ий. Для 3ього завдання обран 16 через проблеми із аналізом сайту магазина львівських меблів.

Фрагменти коду

Парсер сторінок для 1ого та 2ого завдання:

def parse_html(url):
  response = urllib2.urlopen(url)
  page = response.read()
  page = clean_html(page)

  tree = etree.HTML(page.decode('utf-8'))

  text = tree.xpath('//text()')
  text = process_text(text)

  images = tree.xpath('//img/@src')
  images = process_images(images)

  urls = tree.xpath('//a/@href')
  urls = process_urls(urls)

  return urls, text, images

Генератор дерева для 2ого завдання:

def generate_xml_page(page_url, urls, text, images):
  page_elem = etree.Element("page", url=page_url)

  for elem in text:
    fragment = etree.Element("fragment", type="text")
    fragment.text = elem
    page_elem.append(fragment)

  for url in urls:
    fragment = etree.Element("fragment", type="a")
    fragment.text = url
    page_elem.append(fragment)

  for img in images:
    fragment = etree.Element("fragment", type="image")
    fragment.text = img
    page_elem.append(fragment)

  return page_elem

Фрагмент дерева:

<data>
  <page url="http://www.stejka.com">
    <fragment type="text">Stejka - туристический портал Украины. Путешествия, достопримечательности, отели, гостиницы, рестораны, такси.</fragment>
    <!--...-->
    <fragment type="image">http://www.stejka.com/i/best.png</fragment>
  </page>
  <page url="http://www.stejka.com/rus/jitomirskaja/">
    <!--...-->
  </page>
  <!--...-->
</data>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

lab1

lab1

README.md

Лабораторна робота #1

Завдання

Варіант

Фрагменти коду

Files

lab1

Directory actions

More options

Directory actions

More options

Latest commit

History

lab1

Folders and files

parent directory

README.md

Лабораторна робота #1

Завдання

Варіант

Фрагменти коду