Se corrigió lectura de primera página en spider/noticias.py del diarioYucatan

604d6176 · Renán Sosa Guillen · 5d1ef2b3 · 604d6176 · 604d6176 · 604d6176
Commit 604d6176 authored Mar 24, 2017 by Renán Sosa Guillen
8 changed files
--- a/diarioYucatan/2015Nov11.json
+++ b/diarioYucatan/2015Nov11.json
--- a/diarioYucatan/2016Dic22.json
+++ b/diarioYucatan/2016Dic22.json
--- a/diarioYucatan/2016Mar18.json
+++ b/diarioYucatan/2016Mar18.json
--- a/diarioYucatan/diarioYucatan/__init__.pyc
+++ b/diarioYucatan/diarioYucatan/__init__.pyc
--- a/diarioYucatan/diarioYucatan/settings.pyc
+++ b/diarioYucatan/diarioYucatan/settings.pyc
--- a/diarioYucatan/diarioYucatan/spiders/__init__.pyc
+++ b/diarioYucatan/diarioYucatan/spiders/__init__.pyc
--- a/diarioYucatan/diarioYucatan/spiders/noticias.py
+++ b/diarioYucatan/diarioYucatan/spiders/noticias.py
 import scrapy


-#scrapy crawl noticias -t json --nolog -o noticias.json -a year=2016 month=12 day=24
+#scrapy crawl noticias -t json --nolog -o noticias.json -a year=2016 -a month=12 -a day=24

 import re

@@ -35,7 +35,10 @@ class QuotesSpider(scrapy.Spider):
 		pages = response.css("div.pagination").css("a::attr(href)")[-1].extract()
 		pages =  int(pages[pages.rfind('/')+1:])
 		for p in range(0,pages):
-			yield scrapy.Request(url=response.url+"/page/"+str(p+1), callback=self.parse_page)
+			if ( p == 0 ):
+				yield scrapy.Request(url=response.url+"/page/"+str(p+1), callback=self.parse_page, dont_filter=True)
+			else:
+				yield scrapy.Request(url=response.url+"/page/"+str(p+1), callback=self.parse_page)

 	def parse_page(self, response):
 		for link in response.css("div.bp-head").css("h2").css("a::attr(href)").extract():

--- a/diarioYucatan/diarioYucatan/spiders/noticias.pyc
+++ b/diarioYucatan/diarioYucatan/spiders/noticias.pyc