el financiero

c8bfa686 · Mario Chirinos · 21e0de1b · c8bfa686 · c8bfa686
Commit c8bfa686 authored Dec 11, 2024 by Mario Chirinos
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

noticias.py ...ers/daily/diarioPuntual/diarioPuntual/spiders/noticias.py +3 -3

noticias.py spiders/daily/elFinanciero/elFinanciero/spiders/noticias.py +2 -1

No files found.
--- a/spiders/daily/diarioPuntual/diarioPuntual/spiders/noticias.py
+++ b/spiders/daily/diarioPuntual/diarioPuntual/spiders/noticias.py
@@ -33,15 +33,15 @@ class NoticiasSpider(scrapy.Spider):
 	#-----------------------------------------------------------------------
 	def parse_item(self, response):
-		print(response.url)
+#		print(response.url)
 		item = DiariopuntualItem()
 		item["date"] = self.year + "/" + self.month.zfill(2) + "/" + self.day.zfill(2)
 		item["title"] = response.xpath('//title/text()').extract_first().replace("| Diario Puntual","").strip()
 		item["topic"] = ""
 		text=""
 		for p in response.xpath('//article/p').extract():
-			text += remove_tags(p) + "\n"
+			text += remove_tags(p) + "\n "
 		item["text"]=text
 		item["url"]=response.url
-		print(item["title"])
+		print(item)
 		yield(item)
--- a/spiders/daily/elFinanciero/elFinanciero/spiders/noticias.py
+++ b/spiders/daily/elFinanciero/elFinanciero/spiders/noticias.py
@@ -48,11 +48,12 @@ class NoticiasSpider(scrapy.Spider):
 #				
 		item['title'] = response.xpath('//meta[@property="og:title"]/@content').extract_first()
 		item['date'] = self.date
-		item['topic'] = response.xpath('//meta[@name="keywords"]/@content').extract()
+		item['topic'] = response.xpath('//meta[@name="keywords"]/@content').extract_first().split(",")
 #		item['author'] = response.xpath('//span[contains(@class, "sc__author--name")]/text()').extract_first()[0:-2].strip()
 		item['text']=text
 		item['url']= response.xpath('//link[@rel="canonical"]/@href').extract_first()
 		print(item['date'], item['title'])
+#		print(item)
 		yield(item)