Kandu.dk - NEWBIE: adresseudtræk


/ Forside / Teknologi / Udvikling / Perl / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Perl

#	Navn	Point
1	bjarneA	141
2	poul_from	50
3	soccer	30
4	Nicknack	14
5	Tmpj	0

NEWBIE: adresseudtræk - 22.000 tekstlin
Fra : Villum Sejersen

Dato : 10-04-03 18:35

Hej Guruer!

Når man har et adresseudtræk, en tekstfil med ca. 22.000 linjer af
nogenlunde dette udseende (Det er et S229 fra Kommunedata):

,327,0006053,1,Villum Sejersen,,Nørregade 1 A,,4500 Nykøbing Sj,

Altså kommaafgrænset, 8 felter (hvoraf nr. 3 uinteressant), hvad er så
den mest fornuftige måde at dissekere sådan en sag på uden at vælte
pc-en? 22.000 linjer * typisk 80 tegn giver immervæk 2-3MB at holde styr
på, plus det løse. Arrays og hashes er klart svaret, men hvilke
kombinationer er bedst med denne størrelsesorden datamængde når:

Ønskesedlen går på, bagefter i det mindste at kunne sortere på felterne
8-4 (så resultatet kommer efter postdistrikt), samt at kunne sortere
dubletter fra, dvs. hvor felterne 4-8 er indholdsmæssigt helt ens. Der
skal også helst kunne checkes for manglende feltindhold samt for
bestemte indhold ((del)strenge) i disse fem felter.

Perlversionen er 5.8.0 (w2k, ActiveState).

Jeg har som 'godnatlæsning' Blink

liggende "dromedarbogen" (Programming
Perl, 3. ed.) samt David Cross': "Datamunging with Perl", og
eksperimenterer - selvfølgelig med alle warnings slået til! - ud fra
nogle af eksemplerne deri, men har svært ved at træffe fornuftige
startvalg ud fra min selvfølgelig meget mindre testfil.

Jeg vil blive meget glad for lidt inspirerende igangsætning. Helst
forklarede kodeeksempler og/eller henvisninger til hvorfor hvilke valg
er de rigtige i den givne sammenhæng.

--
Villum Sejersen

Flemming Frandsen (10-04-2003)

Kommentar
Fra : Flemming Frandsen

Dato : 10-04-03 20:42

Villum Sejersen wrote:
> den mest fornuftige måde at dissekere sådan en sag på uden at vælte
> pc-en? 22.000 linjer * typisk 80 tegn giver immervæk 2-3MB at holde styr
> på, plus det løse.

Bah, RAM er billigt, jeg har flere gange kværnet mange GB tekst gennem
perl uden problemer, jeg vil foreslå:

open INPUT, "<filen.csv" or die "screaming: $!";
my @input = map { chomp; [split /,/] } <INPUT>;
close INPUT;

Så har du et array af array-refs som du kan rode med, det kan godt være
pænere at bruge et array af hashrefs i stedet, men det kan man selv om.

> samt at kunne sortere
> dubletter fra, dvs. hvor felterne 4-8 er indholdsmæssigt helt ens.

For at sortere dupletter fra bruger du blot et hash:

my %seen;
my @unique = grep { !$seen{join ',', $_->[4,8]}++ } @input;

Så har du kun forekomster i @unique som er unikke i felt 4-8 (husk at
det første element i et array er nummer 0)

> Ønskesedlen går på, bagefter i det mindste at kunne sortere på felterne
> 8-4 (så resultatet kommer efter postdistrikt),

my @sorted = sort {
$a->[8] cmp $b->[8] ||
$a->[7] cmp $b->[7] ||
$a->[6] cmp $b->[6] ||
$a->[5] cmp $b->[5] ||
$a->[4] cmp $b->[4]
} @unique;

> Der skal også helst kunne checkes for manglende feltindhold samt for
> bestemte indhold ((del)strenge) i disse fem felter.

Prøv med eq, f.eks:
if($l->[0] eq '') {
die "ÅH, Gud, nej! stengen er tom!!!";
}

> men har svært ved at træffe fornuftige startvalg ud fra min
> selvfølgelig meget mindre testfil.

Prøv at skrive det simpelst mulige program der gør det du vil, i perl
betyder det typisk også det hurtigste og det der er lettest at
vedligeholde og se om ikke det kører hurtigt nok på den rigtige mængde data.

> Jeg vil blive meget glad for lidt inspirerende igangsætning. Helst
> forklarede kodeeksempler og/eller henvisninger til hvorfor hvilke valg
> er de rigtige i den givne sammenhæng.

Det håber jeg du har fået, jeg har nok brugt et par skumle perl tricks,
men her vil dine (iøvrigt gode) bøger hjælpe:)

--
Regards Flemming Frandsen - http://dion.swamp.dk
PartyTicket.Net co founder & Yet Another Perl Hacker

Villum Sejersen (11-04-2003)

Kommentar
Fra : Villum Sejersen

Dato : 11-04-03 10:30

Flemming Frandsen wrote:

> [snip: masser af gode ideer]

> Prøv at skrive det simpelst mulige program der gør det du vil, ...

Det prøver jeg i forvejen; om ikke af andre grunde så for at holde
antallet af tungt forståelige warnings nede! Blink

>> ... lidt inspirerende igangsætning. ...

> Det håber jeg du har fået, jeg har nok brugt et par skumle perl tricks,
> men her vil dine (iøvrigt gode) bøger hjælpe:)

Tak for både igangsætning og tricks!

Jeg har godt nok haft perl installeret de sidste fem års tid (på tre
forskellige platforme), men ikke tidligere haft anledning til at at
prøve kræfter med et konkret projekt.

--
Villum Sejersen

Søg

Reklame

Statistik

Spørgsmål :	177768
Tips :	31970
Nyheder :	719565
Indlæg :	6410546
Brugere :	218907

Månedens bedste

Årets bedste

Sidste års bedste