Ajustes.

5079a7b9 · Renán Sosa Guillen · 2cc23082 · 5079a7b9 · 5079a7b9 · 5079a7b9
Commit 5079a7b9 authored Apr 26, 2017 by Renán Sosa Guillen
5 changed files
--- a/lajornada/lajornada/__init__.pyc
+++ b/lajornada/lajornada/__init__.pyc
--- a/lajornada/lajornada/settings.pyc
+++ b/lajornada/lajornada/settings.pyc
--- a/lajornada/lajornada/spiders/__init__.pyc
+++ b/lajornada/lajornada/spiders/__init__.pyc
--- a/lajornada/lajornada/spiders/noticias.py
+++ b/lajornada/lajornada/spiders/noticias.py
@@ -7,56 +7,63 @@ uso:
 import scrapy
 import re

+
 TAG_RE = re.compile(r'<[^>]+>')
+
+
 def remove_tags(text):
 	return TAG_RE.sub('', text)

+
 class NoticiasItem(scrapy.Item):
 	title = scrapy.Field()
 	text = scrapy.Field()
-    date = scrapy.Field()
-    location = scrapy.Field()
+	date = scrapy.Field()
+	location = scrapy.Field()
 	author = scrapy.Field()
-    topic = scrapy.Field()
-    url = scrapy.Field()
+	topic = scrapy.Field()
+	url = scrapy.Field()
+

 class NoticiasSpider(scrapy.Spider):
 	name = "noticias"

 	def start_requests(self):
 		"""Lista de url a explorar."""
-
+		
 		year = getattr(self, 'year', None)
 		month = getattr(self, 'month', None)
 		day = getattr(self, 'day', None)
 		self.baseURL='http://www.jornada.unam.mx/'+year+'/'+month+'/'+day+'/'
 		urls = [
 		   self.baseURL+"opinion",
-		   self.baseURL+"politica",
-		   self.baseURL+"economia",
-		   self.baseURL+"mundo",
-		   self.baseURL+"estados",
-		   self.baseURL+"capital",
-		   self.baseURL+"sociedad",
-		   self.baseURL+"ciencias",
-		   self.baseURL+"cultura",
-		   self.baseURL+"espectaculos",
-		   self.baseURL+"deporte",
+		   # self.baseURL+"politica",
+		   # self.baseURL+"economia",
+		   # self.baseURL+"mundo",
+		   # self.baseURL+"estados",
+		   # self.baseURL+"capital",
+		   # self.baseURL+"sociedad",
+		   # self.baseURL+"ciencias",
+		   # self.baseURL+"cultura",
+		   # self.baseURL+"espectaculos",
+		   # self.baseURL+"deporte",
 		]
 		for url in urls:
 			yield scrapy.Request(url=url, callback=self.parse)
+	

 	def parse(self, response):
-        	"""parser principal."""
-
+		"""parser principal."""
+		
 		item = NoticiasItem()
 		for noticia in response.css('a.cabeza'):
- 			url = self.baseURL + noticia.css('::attr(href)').extract_first()
+			url = self.baseURL + noticia.css('::attr(href)').extract_first()
 			yield scrapy.Request(url, callback=self.parse_dir_contents)
+	

 	def parse_dir_contents(self, response):
-        	"""Parser para la pagina de cada noticia."""
-
+		"""Parser para la pagina de cada noticia."""
+		
 		item = NoticiasItem()
 		item['title'] = response.css('div.cabeza::text').extract_first()
 		item['url'] = response.url
@@ -64,6 +71,4 @@ class NoticiasSpider(scrapy.Spider):
 		item['location'] = response.css('p.s-s::text').extract_first()
 		item['text'] = remove_tags( response.css('div.text').extract_first() )
 		item['topic'] = response.css('img.title::attr(title)').extract_first()
-		yield item
-
-
+		yield item
\ No newline at end of file
--- a/lajornada/lajornada/spiders/noticias.pyc
+++ b/lajornada/lajornada/spiders/noticias.pyc