Crawlers.

61744f46 · Renán Sosa Guillen · d66f91ca · 61744f46 · 61744f46 · 61744f46
Commit 61744f46 authored May 11, 2017 by Renán Sosa Guillen
35 changed files
--- a/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.pyc
+++ b/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.pyc
--- a/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.pyc
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.py
@@ -49,6 +49,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.pyc
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.pyc
--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+'page/'+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+'/page/'+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)

--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.pyc
--- a/sitios_yucatan/alChile/alChile/spiders/noticias.py
+++ b/sitios_yucatan/alChile/alChile/spiders/noticias.py
@@ -37,9 +37,9 @@ class QuotesSpider(scrapy.Spider):
 			pages = int(pagination[pagination.rfind('/')+1:])
 			for page in range(0,pages):
 				if ( page == 0 ):
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page, dont_filter=True)
+					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/alChile/alChile/spiders/noticias.pyc
+++ b/sitios_yucatan/alChile/alChile/spiders/noticias.pyc
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.py
@@ -31,15 +31,15 @@ class QuotesSpider(scrapy.Spider):
 			yield scrapy.Request(url=url, callback=self.parse)
 	def parse(self, response):
-		pagination = response.xpath('//div[@id="content"]/div[3]/a/@href').extract()
+		pagination = response.xpath('//*[@class="pagination"]/a[@class="page-numbers"]/@href').extract()
 		if ( len(pagination) > 0 ):
-			pagination = pagination[-2].strip('/')
+			pagination = pagination[-1].strip('/')
 			pages = int(pagination[pagination.rfind('/')+1:])
 			for page in range(0, pages):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -60,6 +60,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.pyc
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.pyc
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.py
@@ -40,7 +40,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+'/page/'+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+'/page/'+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -58,6 +58,6 @@ class QuotesSpider(scrapy.Spider):
 		item['text'] = text
 		item['topic'] = response.css('div.post-tags').css('a::text').extract()
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.pyc
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.pyc
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)

--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.pyc
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -61,5 +61,5 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
\ No newline at end of file
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.pyc
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.py
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -58,6 +58,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.pyc
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.pyc
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.pyc
--- a/sitios_yucatan/notirivas/notirivas/spiders/noticias.py
+++ b/sitios_yucatan/notirivas/notirivas/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/notirivas/notirivas/spiders/noticias.pyc
+++ b/sitios_yucatan/notirivas/notirivas/spiders/noticias.pyc
--- a/sitios_yucatan/notisureste/notisureste/spiders/noticias.py
+++ b/sitios_yucatan/notisureste/notisureste/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 		for paragraph in response.css('div.td-post-content').css('p').extract():
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/notisureste/notisureste/spiders/noticias.pyc
+++ b/sitios_yucatan/notisureste/notisureste/spiders/noticias.pyc
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.py
@@ -48,5 +48,5 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph)
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.pyc
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.pyc
--- a/sitios_yucatan/sona893/sona893/spiders/noticias.py
+++ b/sitios_yucatan/sona893/sona893/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -61,6 +61,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/sona893/sona893/spiders/noticias.pyc
+++ b/sitios_yucatan/sona893/sona893/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.py
@@ -67,5 +67,5 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags( paragraph ) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
\ No newline at end of file
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.py
@@ -39,7 +39,7 @@ class QuotesSpider(scrapy.Spider):
 				if ( page == 0 ):
 					yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
 				else:
-					yield scrapy.Request(url=response.url+"/page/"+str(page+1), callback=self.parse_page)
+					yield scrapy.Request(url=self.baseURL+"/page/"+str(page+1), callback=self.parse_page)
 		else:
 			yield scrapy.Request(url=response.url, callback=self.parse_page, dont_filter=True)
@@ -57,6 +57,6 @@ class QuotesSpider(scrapy.Spider):
 			text += remove_tags(paragraph) + '\n'
 		item['text'] = text
 		item['url'] = response.url
-		print item['title']
+		# print item['title']
 		yield item
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.pyc