Kandu.dk - Lidt grep-hjælp


/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Stil et spørgsmål

Skriv et tip

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Linux

#	Navn	Point
1	o.v.n.	11177
2	peque	7911
3	dk	4814
4	e.c	2359
5	Uranus	1334
6	emesen	1334
7	stone47	1307
8	linuxrules	1214
9	Octon	1100
10	BjarneD	875

Lidt grep-hjælp
Fra : Morten Christensen

Dato : 01-08-11 21:18

Forhistorie:
En mand med bedre evner end mig har engang lavet et shell-script, som
arkiverer vedhæftede filer.
Fra /etc/aliases pipes email'en igennem shell-scriptet.
Med cat gemmes hele mail'en i en midlertidig fil "mail_fil".
Den vedhæftede fil gemmes midlertidigt med munpack. Der er problemer med
filnavnes æøå og mellemrum, som gør, at den endelige filnavn til
arkivering ikke bliver dannet ud fra navnet på den munpack-gemte fil.

Ud fra den midlertidige mail_fil findes navnet på den vedhæftede fil i
headeren's afsnit:

Content-Disposition: attachment;
filename="xxxxxxx.pdf"

Efter en opdatering andre steder i systemet er Content-Disposition:
attachment; filename="
begyndt at fylde 2 linier og muligvis indeholder den nogle andre tegn
end før, hvorefter grep-kommandoen ikke lykkes.

Nu ser mail-header-afsnittet ca. 30 linier nede i mail_fil'en således ud:

Content-Disposition: attachment;
filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
20070801_20080731, 20091207.pdf"

Kan nogen hjælpe med en grep-kommando som finder indholdet imellem
de 2 anførselstegn, og fjerner linie-skiftet, så jeg har en variabel på
1 linie, der kan arbejdes videre med.

--
Morten Christensen

Martin Larsen (02-08-2011)

Kommentar
Fra : Martin Larsen

Dato : 02-08-11 14:05

Morten Christensen wrote:

> Kan nogen hjælpe med en grep-kommando som finder indholdet imellem
> de 2 anførselstegn, og fjerner linie-skiftet, så jeg har en variabel på
> 1 linie, der kan arbejdes videre med.

Et regex der finder indholdet mellem anførselstegnene kunne se således ud:

Content-Disposition: attachment;\s*filename="([^"]*)"

Men du kan (så vidt jeg da ved) ikke fjerne noget med grep, så skal du
snarere over i awk eller sed.

Måske skulle du vise det script der ikke virker længere. Så kan vi nok
bedre se hvad der evt. skal rettes.

Morten Christensen (02-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 02-08-11 16:50

Den 02-08-2011 15:05, Martin Larsen skrev:
> Morten Christensen wrote:
>
>> Kan nogen hjælpe med en grep-kommando som finder indholdet imellem
>> de 2 anførselstegn, og fjerner linie-skiftet, så jeg har en variabel på
>> 1 linie, der kan arbejdes videre med.

Mail-header-afsnittet ca. 30 linier nede i mail_fil'en ser således ud:

Content-Disposition: attachment;
filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
20070801_20080731, 20091207.pdf"

> Et regex der finder indholdet mellem anførselstegnene kunne se således ud:
>
> Content-Disposition: attachment;\s*filename="([^"]*)"
>
> Men du kan (så vidt jeg da ved) ikke fjerne noget med grep, så skal du
> snarere over i awk eller sed.
>
> Måske skulle du vise det script der ikke virker længere. Så kan vi nok
> bedre se hvad der evt. skal rettes.

Ja, det er normalt en fordel at lægge alt relevant frem (medmindre det
bliver så indviklet, at ingen orker at svare). Glad

-->1 linie starter<--
ConvName="$(grep -A1 "Content-Disposition: attachment;" ${Mail_Fil} |
iconv -f ${SrcEnc} -t ${DstEnc} | sed -ne 's/\s*filename="$.*$"/\1/p')"
--<1 linie slutter>--

giver nu en tom variabel {ConvName}

--
Morten Christensen

Martin Larsen (02-08-2011)

Kommentar
Fra : Martin Larsen

Dato : 02-08-11 20:33

Morten Christensen wrote:

> Mail-header-afsnittet ca. 30 linier nede i mail_fil'en ser således ud:
>
> Content-Disposition: attachment;
> filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
> 20070801_20080731, 20091207.pdf"

Er det kun i mailen at filnavnet er delt, eller er den det også i filen?
Det er i øvrigt et meget spøjst filnavn.

> ConvName="$(grep -A1 "Content-Disposition: attachment;" ${Mail_Fil} |
> iconv -f ${SrcEnc} -t ${DstEnc} | sed -ne 's/\s*filename="$.*$"/\1/p')"

Nu ved jeg jo ikke hvad de forskellige variabler indeholder, men kører
jeg en forkortet version op mod dit eksempel, så virker det da fint:

grep -A1 "Content-Disposition: attachment;" test | sed -ne
's/\s*filename="$.*$"/\1/p'

Her er test en fil indeholdede dit eksempel oven over, med filnavnet på
én linje.

Outputtet er:
519, 9002, 510, Årsrapport - udgået, Alle afsnit, 20070801_20080731,
20091207.pdf

Morten Christensen (02-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 02-08-11 22:38

Martin Larsen skrev den 02-08-2011 21:32:
> Morten Christensen wrote:
>
>> Mail-header-afsnittet ca. 30 linier nede i mail_fil'en ser således ud:
>>
>> Content-Disposition: attachment;
>> filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
>> 20070801_20080731, 20091207.pdf"
>
> Er det kun i mailen at filnavnet er delt, eller er den det også i filen?
Så vidt jeg kan se, er det både i mail'ens header og i selve filnavnet,
der ved em opdatering er kommet et tegn med, som bliver til linieskiftet.

> Det er i øvrigt et meget spøjst filnavn.
Helt enig. Den bliver dannet i et mainframe-system, som lever sit eget liv.

>
>> ConvName="$(grep -A1 "Content-Disposition: attachment;" ${Mail_Fil} |
>> iconv -f ${SrcEnc} -t ${DstEnc} | sed -ne 's/\s*filename="$.*$"/\1/p')"
>
> Nu ved jeg jo ikke hvad de forskellige variabler indeholder,
ConvName er den variabel, resultatet skal ende i - den er desværre tom nu.
Mail_fil er stien til den fil, som mail'en er dump-et til, og hvor de 3
linier findes i.
SrcEnc indeholder "iso-8859-1"
DstEnc indeholder "utf8"
Jeg tror ikke, de 2 sidste er en del af mit problem.

--
Med tak for hjælpen indtil nu
Morten Christensen

Tomas Pedersen (02-08-2011)

Kommentar
Fra : Tomas Pedersen

Dato : 02-08-11 20:31

On Tue, 02 Aug 2011 15:05:08 +0200, Martin Larsen wrote:

> Morten Christensen wrote:
>
>
> Men du kan (sÃ¥ vidt jeg da ved) ikke fjerne noget med grep, sÃ¥ skal du
> snarere over i awk eller sed.
Det kan man nu godt, fra man grep:
-o, --only-matching
Print only the matched (non-empty) parts of a matching
line, with each such part on a separate output line.

Men grep virker pÃ¥ en linie ad gangen, sÃ¥ linieskiftet skal vÃ¦k fÃ¸rst.
Det vil awk eller sed sikkert vÃ¦re gode til.

Tomas

Jens Henrik Leonhard~ (02-08-2011)

Kommentar
Fra : Jens Henrik Leonhard~

Dato : 02-08-11 23:42

Hej Morten.

On 2011-08-01 22:18, Morten Christensen wrote:
> Forhistorie:
> En mand med bedre evner end mig har engang lavet et shell-script, som
> arkiverer vedhÃ¦ftede filer.
> Fra /etc/aliases pipes email'en igennem shell-scriptet.
> Med cat gemmes hele mail'en i en midlertidig fil "mail_fil".
> Den vedhÃ¦ftede fil gemmes midlertidigt med munpack. Der er problemer med
> filnavnes Ã¦Ã¸Ã¥ og mellemrum, som gÃ¸r, at den endelige filnavn til
> arkivering ikke bliver dannet ud fra navnet pÃ¥ den munpack-gemte fil.
>
> Ud fra den midlertidige mail_fil findes navnet pÃ¥ den vedhÃ¦ftede fil i
> headeren's afsnit:
>
> Content-Disposition: attachment;
> filename="xxxxxxx.pdf"
>
> Efter en opdatering andre steder i systemet er Content-Disposition:
> attachment; filename="
> begyndt at fylde 2 linier og muligvis indeholder den nogle andre tegn
> end fÃ¸r, hvorefter grep-kommandoen ikke lykkes.
>
> Nu ser mail-header-afsnittet ca. 30 linier nede i mail_fil'en sÃ¥ledes ud:
>
> Content-Disposition: attachment;
> filename="519, 9002, 510, Ã…rsrapport - udgÃ¥et, Alle afsnit,
> 20070801_20080731, 20091207.pdf"
>
>
> Kan nogen hjÃ¦lpe med en grep-kommando som finder indholdet imellem
> de 2 anfÃ¸rselstegn, og fjerner linie-skiftet, sÃ¥ jeg har en variabel pÃ¥
> 1 linie, der kan arbejdes videre med.
>

Jeg kan ikke lige fÃ¥ grep til at gÃ¸re det. Men hvad med sed:

sed -ne '
/^Content-Disposition:/,/" *$/ H;
$g;
$s/.*filename="$.*$"/\1/;
$s/\n //gp'

Med venlig hilsen
Jens Henrik

Morten Christensen (03-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 03-08-11 08:38

Den 03-08-2011 00:42, Jens Henrik Leonhard Jensen skrev:
> Hej Morten.
>
> On 2011-08-01 22:18, Morten Christensen wrote:
>> Forhistorie:
>> En mand med bedre evner end mig har engang lavet et shell-script, som
>> arkiverer vedhÃ¦ftede filer.
>> Fra /etc/aliases pipes email'en igennem shell-scriptet.
>> Med cat gemmes hele mail'en i en midlertidig fil "mail_fil".
>> Den vedhÃ¦ftede fil gemmes midlertidigt med munpack. Der er problemer med
>> filnavnes Ã¦Ã¸Ã¥ og mellemrum, som gÃ¸r, at den endelige filnavn til
>> arkivering ikke bliver dannet ud fra navnet pÃ¥ den munpack-gemte fil.
>>
>> Ud fra den midlertidige mail_fil findes navnet pÃ¥ den vedhÃ¦ftede fil i
>> headeren's afsnit:
>>
>> Content-Disposition: attachment;
>> filename="xxxxxxx.pdf"
>>
>> Efter en opdatering andre steder i systemet er Content-Disposition:
>> attachment; filename="
>> begyndt at fylde 2 linier og muligvis indeholder den nogle andre tegn
>> end fÃ¸r, hvorefter grep-kommandoen ikke lykkes.
>>
>> Nu ser mail-header-afsnittet ca. 30 linier nede i mail_fil'en sÃ¥ledes ud:
>>
>> Content-Disposition: attachment;
>> filename="519, 9002, 510, Ã…rsrapport - udgÃ¥et, Alle afsnit,
>> 20070801_20080731, 20091207.pdf"
>>
>>
>> Kan nogen hjÃ¦lpe med en grep-kommando som finder indholdet imellem
>> de 2 anfÃ¸rselstegn, og fjerner linie-skiftet, sÃ¥ jeg har en variabel pÃ¥
>> 1 linie, der kan arbejdes videre med.
>>
>
> Jeg kan ikke lige fÃ¥ grep til at gÃ¸re det. Men hvad med sed:
>
> sed -ne '
> /^Content-Disposition:/,/" *$/ H;
> $g;
> $s/.*filename="$.*$"/\1/;
> $s/\n //gp'
>
> Med venlig hilsen
> Jens Henrik

Hej, tak for forslaget.
Jeg har en variabel ${ConvName2} som indeholder de 3 linier ovenfor fra
headeren (+ en ascii 010)

Jeg er ikke dygtig nok til det her. Kan I hjÃ¦lpe videre med, hvordan
syntaksen skal vÃ¦re, for at fÃ¥ indholdet i ${ConvName2} igennem
sed-kommandoen, og gemt i en ny variabel ${ConvName3}.

--
Morten Christensen

Frank Damgaard (03-08-2011)

Kommentar
Fra : Frank Damgaard

Dato : 03-08-11 10:35

On 2011-08-03 09:37, Morten Christensen wrote:
......
>>> Nu ser mail-header-afsnittet ca. 30 linier nede i mail_fil'en sÃ¥ledes ud:
>>>
>>> Content-Disposition: attachment;
>>> filename="519, 9002, 510, Ã…rsrapport - udgÃ¥et, Alle afsnit,
>>> 20070801_20080731, 20091207.pdf"
......
>
> Hej, tak for forslaget.
> Jeg har en variabel ${ConvName2} som indeholder de 3 linier ovenfor fra headeren (+ en
> ascii 010)
>
> Jeg er ikke dygtig nok til det her. Kan I hjÃ¦lpe videre med, hvordan syntaksen skal vÃ¦re,
> for at fÃ¥ indholdet i ${ConvName2} igennem sed-kommandoen, og gemt i en ny variabel
> ${ConvName3}.
....

3 linier men kun et linieskift (ascii 10) ?
eller er der flere linieskift?

Egentlig ser jeg en del potentielle problemer da filnavnet kan inddeholde
flere mellemrum og linieskift blandet sammen?

Tja egentlog er AWK velegnet til tekst-ind -> tekst-ud opgaver, men fÃ¥
bruger programmet idag.. ;(

Forudsat Content-Disposition ikke nogen gange indeholder header med
mindre information kunne et AWK script udgave med variable :

ConvName3=$(echo "${ConvName2}" | \
awk ' BEGIN { RS="\n[^[:space:]]" }
/^Content-Disposition:/ {
res=gensub(/Content-Disposition:[[:space:]]*attachment;[[:space:]]*filename="([^"]*)"/,
"\\1","1");
print res
}
'
)

egentlig kan awk kÃ¸res pÃ¥ hele header-fil og den vil finde den aktuelle linie
idet /^Content-Disposition:/ gÃ¸r at kun linier der matcher anvendes.

f.eks.
RES=$( awk ' ...program.... ' headerfile)

metode 2:

hvis der bruges BASH som shell script kunne det gÃ¸res sÃ¥dan:

ConvName3="${ConvName2#Content-Disposition:*attachment*filename=\"}"
ConvName3="${ConvName3%\"}"

se i BASH manual under parameter expansion for nÃ¦rmere forklaring
Jeg har ikke checket andre typer shell (zsh, kornshell,...),
mÃ¥ske nogle har noget tilsvarende.
Jeg er dog ganske overbevist om at simple shell ikke
har parameter expansion.

Den anvendte shell ses i toppen af et shell-script som
f.eks. #!/bin/bash

metode 3 (med Jens' sed eksempel):

Med sed bliver det uden -n hos mig, for hos mig giver -n intet output.

ConvName3=$(echo "${ConvName2}" | sed -e '
/^Content-Disposition:/,/" *$/ H;
$g;
$s/.*filename="$.*$"/\1/;
$s/\n //gp' )

Morten Christensen (03-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 03-08-11 13:12

Den 03-08-2011 11:34, Frank Damgaard skrev:
> On 2011-08-03 09:37, Morten Christensen wrote:
> ......
>>>> Nu ser mail-header-afsnittet ca. 30 linier nede i mail_fil'en sÃ¥ledes ud:
>>>>
>>>> Content-Disposition: attachment;
>>>> filename="519, 9002, 510, Ã…rsrapport - udgÃ¥et, Alle afsnit,
>>>> 20070801_20080731, 20091207.pdf"
> ......
>>
>> Hej, tak for forslaget.
>> Jeg har en variabel ${ConvName2} som indeholder de 3 linier ovenfor fra headeren (+ en
>> ascii 010)
>>
>> Jeg er ikke dygtig nok til det her. Kan I hjÃ¦lpe videre med, hvordan syntaksen skal vÃ¦re,
>> for at fÃ¥ indholdet i ${ConvName2} igennem sed-kommandoen, og gemt i en ny variabel
>> ${ConvName3}.
> ....
>
> 3 linier men kun et linieskift (ascii 10) ?
> eller er der flere linieskift?

Det er jeg nok sprunget for let hen over, fordi det ikke har Ã¦ndret sig:
imellem "attachment;" og "filename="" er der formodentlig acscii 10
(linieskift) og ascii 9 (tabulator).

>
> Egentlig ser jeg en del potentielle problemer da filnavnet kan inddeholde
> flere mellemrum og linieskift blandet sammen?
>
> Tja egentlog er AWK velegnet til tekst-ind -> tekst-ud opgaver, men fÃ¥
> bruger programmet idag.. ;(
>
> Forudsat Content-Disposition ikke nogen gange indeholder header med
> mindre information kunne et AWK script udgave med variable :
>
> ConvName3=$(echo "${ConvName2}" | \
> awk ' BEGIN { RS="\n[^[:space:]]" }
> /^Content-Disposition:/ {
> res=gensub(/Content-Disposition:[[:space:]]*attachment;[[:space:]]*filename="([^"]*)"/,
> "\\1","1");
> print res
> }
> '
> )

Jeg har forsÃ¸gt at indtaste koden, men ikke haft held med at fÃ¥
programmet til at kÃ¸re med den kode i.
Der kan vÃ¦re indsat linieskift undervejs igennem use-net. Hvor mange
linier skal der vÃ¦re?

>
>
> egentlig kan awk kÃ¸res pÃ¥ hele header-fil og den vil finde den aktuelle linie
> idet /^Content-Disposition:/ gÃ¸r at kun linier der matcher anvendes.
>
> f.eks.
> RES=$( awk ' ...program.... ' headerfile)

Det er ikke kun headeren, som ligger i filen, men hele email'en incl.
50-100 sider vedhÃ¦ftet pdf (2-3.000 linier). Er awk sÃ¥ lige sÃ¥ hurtig
som grep ?

> metode 2:
>
> hvis der bruges BASH som shell script kunne det gÃ¸res sÃ¥dan:

Det er bash pÃ¥ en SLES10

> ConvName3="${ConvName2#Content-Disposition:*attachment*filename=\"}"
> ConvName3="${ConvName3%\"}"

Det her virker bortset fra, at ascii 10 (linieskiftet) fÃ¸r 20070801 ikke
er sorteret fra.

> se i BASH manual under parameter expansion for nÃ¦rmere forklaring
> Jeg har ikke checket andre typer shell (zsh, kornshell,...),
> mÃ¥ske nogle har noget tilsvarende.
> Jeg er dog ganske overbevist om at simple shell ikke
> har parameter expansion.
>
> Den anvendte shell ses i toppen af et shell-script som
> f.eks. #!/bin/bash
>
>
> metode 3 (med Jens' sed eksempel):
>
> Med sed bliver det uden -n hos mig, for hos mig giver -n intet output.
>
> ConvName3=$(echo "${ConvName2}" | sed -e '
> /^Content-Disposition:/,/" *$/ H;
> $g;
> $s/.*filename="$.*$"/\1/;
> $s/\n //gp' )

Finder ikke noget resultat til ConvName3 hos mig.

--
Med tak for al hjÃ¦lpen indtil nu
Morten Christensen

Frank Damgaard (03-08-2011)

Kommentar
Fra : Frank Damgaard

Dato : 03-08-11 16:55

On 2011-08-03 14:12, Morten Christensen wrote:
> Den 03-08-2011 11:34, Frank Damgaard skrev:
.....

>> ....
>>
>> 3 linier men kun et linieskift (ascii 10) ?
>> eller er der flere linieskift?
>
> Det er jeg nok sprunget for let hen over, fordi det ikke har Ã¦ndret sig:
> imellem "attachment;" og "filename="" er der formodentlig acscii 10 (linieskift) og ascii
> 9 (tabulator).

ok, [:space:] burde dog fange begge den slags.
....

>> Forudsat Content-Disposition ikke nogen gange indeholder header med
>> mindre information kunne et AWK script udgave med variable :
>>
>> ConvName3=$(echo "${ConvName2}" | \
>> awk ' BEGIN { RS="\n[^[:space:]]" }
>> /^Content-Disposition:/ {
>> res=gensub(/Content-Disposition:[[:space:]]*attachment;[[:space:]]*filename="([^"]*)"/,
>> "\\1","1");
>> print res
>> }
>> '
>> )
>
> Jeg har forsÃ¸gt at indtaste koden, men ikke haft held med at fÃ¥ programmet til at kÃ¸re med
> den kode i.
> Der kan vÃ¦re indsat linieskift undervejs igennem use-net. Hvor mange linier skal der vÃ¦re?

der er kun en linie der er blevet delt (den med gensub) og den burde virke
selv delt som ovenfor
Jeg garanterer dog ikke noget hvis du bruger google-groups til at se siden med.

jeg har lagt et bash-shell script her, den har alle 3 eksempler:
hent med "gem link som" sÃ¥ browser ikke laver det om.

http://frda.dk/find_filnavn_i_mailboxfil.sh

>> egentlig kan awk kÃ¸res pÃ¥ hele header-fil og den vil finde den aktuelle linie
>> idet /^Content-Disposition:/ gÃ¸r at kun linier der matcher anvendes.
>>
>> f.eks.
>> RES=$( awk ' ...program.... ' headerfile)
>
> Det er ikke kun headeren, som ligger i filen, men hele email'en incl. 50-100 sider
> vedhÃ¦ftet pdf (2-3.000 linier). Er awk sÃ¥ lige sÃ¥ hurtig som grep ?

mÃ¥ske ikke helt, men det skal sÃ¥ kodes til sÃ¥dan at der afsluttes nÃ¥r
der ikke er flere headere, sÃ¥dan at resten af filen ikke lÃ¦ses.
Normalt afsluttes headere med en tom linie,
men du kunne ogsÃ¥ afslutte nÃ¥r Content-header er lÃ¦st.
Se eksempel scriptet (pÃ¥ ovennÃ¦vnte url)

Det er altid svÃ¦rt at "gÃ¦tte" sig til det optimale script nÃ¥r
man kun har dele af input.
Men du kan jo prÃ¸ve at lave nogle hastighedstest
hos mig Ã¦des 1 million linier pÃ¥ 4.5 sek (1.67GHz netbook)

>
>> metode 2:
>>
>> hvis der bruges BASH som shell script kunne det gÃ¸res sÃ¥dan:
>
> Det er bash pÃ¥ en SLES10
>
>> ConvName3="${ConvName2#Content-Disposition:*attachment*filename=\"}"
>> ConvName3="${ConvName3%\"}"
>
> Det her virker bortset fra, at ascii 10 (linieskiftet) fÃ¸r 20070801 ikke er sorteret fra.

de strippes evt. med "tr" fÃ¸rst
Se ovennÃ¦vnte url

Morten Christensen (03-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 03-08-11 22:11

Den 03-08-2011 17:55, Frank Damgaard skrev:
> On 2011-08-03 14:12, Morten Christensen wrote:
>> Den 03-08-2011 11:34, Frank Damgaard skrev:
> .....
>
>>> ....
>>>
>>> 3 linier men kun et linieskift (ascii 10) ?
>>> eller er der flere linieskift?
>>
>> Det er jeg nok sprunget for let hen over, fordi det ikke har Ã¦ndret sig:
>> imellem "attachment;" og "filename="" er der formodentlig acscii 10 (linieskift) og ascii
>> 9 (tabulator).
>
> ok, [:space:] burde dog fange begge den slags.
> ....
>
>>> Forudsat Content-Disposition ikke nogen gange indeholder header med
>>> mindre information kunne et AWK script udgave med variable :
>>>
>>> ConvName3=$(echo "${ConvName2}" | \
>>> awk ' BEGIN { RS="\n[^[:space:]]" }
>>> /^Content-Disposition:/ {
>>> res=gensub(/Content-Disposition:[[:space:]]*attachment;[[:space:]]*filename="([^"]*)"/,
>>> "\\1","1");
>>> print res
>>> }
>>> '
>>> )
>>
>> Jeg har forsÃ¸gt at indtaste koden, men ikke haft held med at fÃ¥ programmet til at kÃ¸re med
>> den kode i.
>> Der kan vÃ¦re indsat linieskift undervejs igennem use-net. Hvor mange linier skal der vÃ¦re?
>
> der er kun en linie der er blevet delt (den med gensub) og den burde virke
> selv delt som ovenfor
> Jeg garanterer dog ikke noget hvis du bruger google-groups til at se siden med.
>
> jeg har lagt et bash-shell script her, den har alle 3 eksempler:
> hent med "gem link som" sÃ¥ browser ikke laver det om.
>
> http://frda.dk/find_filnavn_i_mailboxfil.sh
>
>
>>> egentlig kan awk kÃ¸res pÃ¥ hele header-fil og den vil finde den aktuelle linie
>>> idet /^Content-Disposition:/ gÃ¸r at kun linier der matcher anvendes.
>>>
>>> f.eks.
>>> RES=$( awk ' ...program.... ' headerfile)
>>
>> Det er ikke kun headeren, som ligger i filen, men hele email'en incl. 50-100 sider
>> vedhÃ¦ftet pdf (2-3.000 linier). Er awk sÃ¥ lige sÃ¥ hurtig som grep ?
>
> mÃ¥ske ikke helt, men det skal sÃ¥ kodes til sÃ¥dan at der afsluttes nÃ¥r
> der ikke er flere headere, sÃ¥dan at resten af filen ikke lÃ¦ses.
> Normalt afsluttes headere med en tom linie,
> men du kunne ogsÃ¥ afslutte nÃ¥r Content-header er lÃ¦st.
> Se eksempel scriptet (pÃ¥ ovennÃ¦vnte url)
>
>
> Det er altid svÃ¦rt at "gÃ¦tte" sig til det optimale script nÃ¥r
> man kun har dele af input.
> Men du kan jo prÃ¸ve at lave nogle hastighedstest
> hos mig Ã¦des 1 million linier pÃ¥ 4.5 sek (1.67GHz netbook)

Tak for hjÃ¦lpen og eksemplerne, hvis der bliver flere problemer.
ForelÃ¸big er det kÃ¸rende med Martin Hellers forslag.

Mht. hastigheden, er det nÃ¦ppe sÃ¦rlig vigtigt. Det tager formodentlig 1
min. fra mail'en bestilles pÃ¥ mainframe'en, indtil den er nÃ¥et frem over
internettet. SÃ¥ er det jo ikke vÃ¦sentligt, om der gÃ¥r 1 eller 3 sekunder
med at lede i en fil.

--
Morten Christensen

>>
>>> metode 2:
>>>
>>> hvis der bruges BASH som shell script kunne det gÃ¸res sÃ¥dan:
>>
>> Det er bash pÃ¥ en SLES10
>>
>>> ConvName3="${ConvName2#Content-Disposition:*attachment*filename=\"}"
>>> ConvName3="${ConvName3%\"}"
>>
>> Det her virker bortset fra, at ascii 10 (linieskiftet) fÃ¸r 20070801 ikke er sorteret fra.
>
> de strippes evt. med "tr" fÃ¸rst
> Se ovennÃ¦vnte url
>
>

Martin Heller (03-08-2011)

Kommentar
Fra : Martin Heller

Dato : 03-08-11 13:21

Morten Christensen wrote, on 01-08-2011 22:18:

> Content-Disposition: attachment;
> filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
> 20070801_20080731, 20091207.pdf"
>
>
> Kan nogen hjælpe med en grep-kommando som finder indholdet imellem
> de 2 anførselstegn, og fjerner linie-skiftet, så jeg har en variabel på
> 1 linie, der kan arbejdes videre med.
>

Følgende virker med sed version 4.1.5 fra gnuwin32

sed -n /filename/N;s/\n//;s/.*filename=\"$.*$\"/\1/p mailfil.txt

Morten Christensen (03-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 03-08-11 14:35

Martin Heller skrev den 03-08-2011 14:21:
> Morten Christensen wrote, on 01-08-2011 22:18:
>
>> Content-Disposition: attachment;
>> filename="519, 9002, 510, Årsrapport - udgået, Alle afsnit,
>> 20070801_20080731, 20091207.pdf"
>>
>>
>> Kan nogen hjælpe med en grep-kommando som finder indholdet imellem
>> de 2 anførselstegn, og fjerner linie-skiftet, så jeg har en variabel på
>> 1 linie, der kan arbejdes videre med.
>>
>
> Følgende virker med sed version 4.1.5 fra gnuwin32
>
> sed -n /filename/N;s/\n//;s/.*filename=\"$.*$\"/\1/p mailfil.txt
>
>
>

Ja. denne kommando løser opgaven for mig - giver 1 linie uden linieskiftene:
---> 1 linie start <---
ConvName5=$(echo "${ConvName2}" | sed -ne
'/filename/N;s/\n//;s/.*filename=\"$.*$\"/\1/p')
--< 1 linie slut >---

resultatet bliver på 1 linie:
519, 9002, 510, Årsrapport - udgået, Alle afsnit, 20070801_20080731,
20091207.pdf

--
Tak for hjælpen til alle
Morten Christensen
PS. en oversættelse af, hvad tingene betyder inde i kommandoen ville
være god at have til senere problemer.

Martin Heller (03-08-2011)

Kommentar
Fra : Martin Heller

Dato : 03-08-11 14:45

Morten Christensen wrote, on 03-08-2011 15:34:

> PS. en oversættelse af, hvad tingene betyder inde i kommandoen ville
> være god at have til senere problemer.

sed -ne '/filename/N;s/\n//;s/.*filename=\"$.*$\"/\1/p'

-n
   skriv ikke noget med mindre der bliver bedt om det
/filename/
   Find <filename> i input
N
   Inkluder den næste linje, men slet ikke den foregående
s/\n//
   Slet linjeombrydning
s/.*filename=\"$.*$\"/\1
   erstat <et eller andet>filename="<hvadsomhelst>"
   med <hvad som helst>
p
   skriv resultatet

(ThorbjÃ¸rn Ravn (03-08-2011)

Kommentar
Fra : (ThorbjÃ¸rn Ravn

Dato : 03-08-11 18:50

Morten Christensen <mc@mc.sletmig.cx> writes:

> Efter en opdatering andre steder i systemet er Content-Disposition:
> attachment; filename="
> begyndt at fylde 2 linier og muligvis indeholder den nogle andre tegn
> end fÃ¸r, hvorefter grep-kommandoen ikke lykkes.

Har du nogen chance for at fejlmelde opdateringen sÃ¥ filnavnene ikke
indeholder linieskift?
--
ThorbjÃ¸rn Ravn Andersen "... plus... Tubular Bells!"

Morten Christensen (03-08-2011)

Kommentar
Fra : Morten Christensen

Dato : 03-08-11 22:13

Den 03-08-2011 19:50, ThorbjÃ¸rn Ravn Andersen, 20110803 skrev:
> Morten Christensen<mc@mc.sletmig.cx> writes:
>
>> Efter en opdatering andre steder i systemet er Content-Disposition:
>> attachment; filename="
>> begyndt at fylde 2 linier og muligvis indeholder den nogle andre tegn
>> end fÃ¸r, hvorefter grep-kommandoen ikke lykkes.
>
> Har du nogen chance for at fejlmelde opdateringen sÃ¥ filnavnene ikke
> indeholder linieskift?

Det skal jeg ogsÃ¥ arbejde pÃ¥, men fÃ¸rst er kontakt-personen pÃ¥ ferie i
denne uge, og derefter ved jeg af erfaring, at det er et meget stift
system af prÃ¸ve at fÃ¥ rettet i.

--
Morten Christensen

Søg

Reklame

Statistik

Spørgsmål :	177828
Tips :	31982
Nyheder :	719565
Indlæg :	6411025
Brugere :	218912

Månedens bedste

Årets bedste

Sidste års bedste