Kom ihåg mig?
Home Menu

Menu


Spindel som kan hitta specifik information om sajter?

Ämnesverktyg Visningsalternativ
Oläst 2016-01-25, 12:00 #1
logic logic är inte uppkopplad
Medlem
 
Reg.datum: Jan 2005
Inlägg: 160
logic logic är inte uppkopplad
Medlem
 
Reg.datum: Jan 2005
Inlägg: 160
Standard Spindel som kan hitta specifik information om sajter?

Hej,

Jag undrar om någon här vet ifall det finns en webbtjänst där man kan ställa in parametrar och få ett resultat på träffar där villkoret finns?

Exempel:
Jag vill hitta alla svenska webbplatser som använder Wordpress som CMS. I källa kan man i merparten av sajterna hitta indikationer på att de använder wordpress, exempelvis genom att leta igenom källa efter texten "wp_head", "wp-content", etc.

Vet någon om det finns en sån lösning där man exempelvis matar in alla webbplatser och sen får ut vilka som ger träff på specifika parametrar, eller vad tror ni om tidsuppskattning för att bygga en sån lösning?

Tack på förhand!
logic är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-25, 13:20 #2
digiArt digiArt är inte uppkopplad
Har WN som tidsfördriv
 
Reg.datum: Jan 2004
Inlägg: 1 429
digiArt digiArt är inte uppkopplad
Har WN som tidsfördriv
 
Reg.datum: Jan 2004
Inlägg: 1 429
Något i stil med builtwith.com?
digiArt är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-25, 21:05 #3
Dimme Dimme är inte uppkopplad
Flitig postare
 
Reg.datum: Mar 2008
Inlägg: 397
Dimme Dimme är inte uppkopplad
Flitig postare
 
Reg.datum: Mar 2008
Inlägg: 397
https://www.google.se/search?q=%2Bin...2%2Fwp-content

http://www.googleguide.com/advanced_...reference.html
Dimme är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-25, 21:13 #4
Piraten Piraten är inte uppkopplad
Flitig postare
 
Reg.datum: Nov 2003
Inlägg: 367
Piraten Piraten är inte uppkopplad
Flitig postare
 
Reg.datum: Nov 2003
Inlägg: 367
ScrapeBox funkar nog finfint till detta, dock ingen webtjänst.
Piraten är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-26, 07:46 #5
Seoseon Seoseon är inte uppkopplad
Nykomling
 
Reg.datum: Nov 2015
Inlägg: 33
Seoseon Seoseon är inte uppkopplad
Nykomling
 
Reg.datum: Nov 2015
Inlägg: 33
SimilarTech har en sökmotor för just detta, men det kostar skjortan om du vill ha mer än 10 resultat:
https://www.similartech.com/websites-using/wordpress
Seoseon är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-27, 17:29 #6
Spindels avatar
Spindel Spindel är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 2 486
Spindel Spindel är inte uppkopplad
Klarade millennium-buggen
Spindels avatar
 
Reg.datum: Mar 2004
Inlägg: 2 486
Mot betalning så...
Spindel är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-27, 23:04 #7
David.T David.T är inte uppkopplad
Medlem
 
Reg.datum: Jan 2012
Inlägg: 64
David.T David.T är inte uppkopplad
Medlem
 
Reg.datum: Jan 2012
Inlägg: 64
Relativt enkelt om du har domänerna som ska kontrolleras. Saknar du .se domäner (om det gäller .se) så måste man få fram dem först, men även det är möjligt.
Om du har en bra idé, så kanske det är något vi kan samarbeta inom.
David.T är inte uppkopplad   Svara med citatSvara med citat
Oläst 2016-01-28, 20:53 #8
Sorku Sorku är inte uppkopplad
Medlem
 
Reg.datum: Oct 2007
Inlägg: 108
Sorku Sorku är inte uppkopplad
Medlem
 
Reg.datum: Oct 2007
Inlägg: 108
Detta kanske ger lite inspiration, använder något liknande själv. Helt otestat. Lycka till!

Kod:
var request = require('request');
var url = require('url');
var iconv = require('iconv-lite');
var charset = require('charset');
var jschardet = require("jschardet")

(function(){

	var links = ['http://www.aftonbladet.se/', 'http://wn.se/', 'https://wordpress.org/news/', 'http://expressen.se/'];

	for(var i = 0; i < links.length - 1; i++){
	
		var info = {
			url: links[i];
		};
	
		requestGET(info, function(html){
		
			if(html.indexOf('/wp-content/') > -1)
			{
				console.log(links[i] + " innehåller /wp-content/");
			}
			
		});
	
	}
	
})();

function requestHEAD(info, callback){
	
	var options = {
		uri: info.url,
		method: 'HEAD',
		jar: info.cookieJar
	};
	
	request(options, function (error, response) {
		
		if(error || response.statusCode != 200 || !response.headers['content-type'] || response.headers['content-type'].toLowerCase().indexOf('text/html') == -1)
			return;
		
		info.cookieJar = request.jar();
		info.uri = response.request.uri;
		
		callback(info);		
	});
}

function requestGET(info, callback){
	
	requestHEAD(info, function(info){
	
		var options = {
			uri: info.url,
			method: 'GET',
			jar: info.cookieJar,
			encoding: null
		};
		
		request(options, function (error, response, html) {
			
			if(error || !html || response.statusCode != 200 || !response.headers['content-type'] || response.headers['content-type'].toLowerCase().indexOf('text/html') == -1)
				return;
			
			// Fix encoding (to utf-8)
			enc = charset(response.headers, html) || jschardet.detect(html).encoding;
			if (enc && enc.toLowerCase() != 'utf-8'){			
				html = iconv.decode(html, enc.toLowerCase());
			}
			
			callback(info, html);		
		});		
	});	
}
Sorku är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 16:51.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017