crawlers

3cd0913c · Renán Sosa Guillen · 10c46676 · 3cd0913c
Commit 3cd0913c authored Dec 18, 2017 by Renán Sosa Guillen
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

noticias.py descarga_por_rss/elUniversal/elUniversal/spiders/noticias.py +3 -1

No files found.
--- a/descarga_por_rss/elUniversal/elUniversal/spiders/noticias.py
+++ b/descarga_por_rss/elUniversal/elUniversal/spiders/noticias.py
@@ -38,7 +38,9 @@ class QuotesSpider(scrapy.Spider):
        item['date'] = response.xpath('//meta[@property="article:published_time"]/@content').extract_first()
        item['topic'] = response.xpath('//*[@class="breadcrumb"]/span/a/text()').extract()[-2]
        item['title'] = response.xpath('//*[@class="pane-content"]/h1/text()').extract_first()
-        for p in response.xpath('//*[@class="pane-content"]/div/p').extract():
+        paragraphs = response.xpath('//*[@class="pane-content"]/div/p').extract()
+        paragraphs.extend(response.xpath('//*[@class="rtejustify"]').extract())
+        for p in paragraphs:
            text += remove_tags(p) + '\n'
        item['text'] = text
        item['location'] = response.xpath('//*[@class="field field-name-field-lugar field-type-text field-label-hidden"]/text()').extract_first()